lucene集成ikanalyzer中文分词器插件;Analyzer使用时机

xiaoxiao2021-02-28  8

1.1.1. IKAnalyzer

 

使用方法:

第一步:把jar包添加到工程中

第二步:把配置文件和扩展词典和停用词词典添加到classpath

 

意:mydict.dicext_stopword.dic文件的格式为UTF-8,注意是BOM UTF-8 编码

 

使用EditPlus.exe保存为BOM UTF-8 编码格式,如下图:

 

1.1. Analyzer使用时机

1.1.1. 索引时使用Analyzer

输入关键字进行搜索,当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析,需要经过Analyzer分析器处理生成语汇单元(Token)。分析器分析的对象是文档中的Field域。当Field的属性tokenized(是否分词)为true时会对Field值进行分析,如下图:

 

 

对于一些Field可以不用分析:

1、不作为查询条件的内容,比如文件路径

2、不是匹配内容中的词而匹配Field的整体内容,比如订单号、身份证号等。

 

1.1.2. 搜索时使用Analyzer

对搜索关键字进行分析和索引分析一样,使用Analyzer对搜索关键字进行分析、分词处理,使用分析后每个词语进行搜索。比如:搜索关键字:spring web,经过分析器进行分词,得出:spring  web拿词去索引词典表查找,找到索引链接到Document,解析Document内容。

对于匹配整体Field域的查询可以在搜索时不分析,比如根据订单号、身份证号查询等。

 

注意:搜索使用的分析器要和索引使用的分析器一致。

转载请注明原文地址: https://www.6miu.com/read-1400167.html

最新回复(0)