什么是solr,solr是Apache开源的一个分词索引库软件,其他另行百度solr 下载安装
下载地址: 点击打开链接解压下载的压缩包,solr 7.3 不需要使用Tomcat启动,自带jetty,window运行: bin/solr.cmd start,solr默认端口为8983访问:http://localhost:8983/solr/
solr 配置
创建core,solr.cmd create -c articles。其中articles是core的名称,可以自定义。重启solr:solr.cmd -p 8983 restart查看core:打开solr控制台,点击"Core Admin",列表中出现"articles",说明core创建成功测试分词,选择刚才创建的core,点击Analysis进入分词分析页面,输入要分词的句子,选择分词库,点击分析按钮,即可看到分词结果solr默认不支持中文分词
中文分词插件配置
添加中文分词插件:solr 7.3中自带中文分词插件,将solr-7.3.1\contrib\analysis-extras\lucene-libs\lucene-analyzers-smartcn-7.3.1.jar 复制到 solr-7.3.1\server\solr-webapp\webapp\WEB-INF\lib 目录中配置中文分词,修改 solr-7.3.1\server\solr\articles【创建的core的名称】\conf\managed-schema文件,添加中文分词 <!-- Chinese -->
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
</analyzer>
</fieldType>搜索Italian,在Italian下添加我们的中文配置重启solr,测试中文分词OK