IKAnalyzer配置扩展词库经验总结

xiaoxiao2021-02-28 138

IKAnalyzer对于中文分词效果较好，但是在实际应用过程中经常会遇到分词效果不理想的情况，比如中文中夹杂的英文缩写，英文与数字混合（如软件版本号）等，这时就需要配置扩展词库。配置的主要方法为编辑IKAnalyzer.cfg.xml文件，并创建相应的.dic文件。在配置过程中，遇到如下两个问题： 1.编码问题，dic文件需要以uft8格式编码，否则分词器无法正确识别，而windows下的notepad默认是以GBK编码的； 2.IKAnalyzer在初始化时需要选择非智能模式，即Analyzer ik = new IKAnalyzer(false), 否则在扩展词库中添加的词汇有可能不被识别。参考： 1. http://www.oschina.net/question/166087_149161?sort=time 2. http://blog.csdn.net/whzhaochao/article/details/50130605

转载请注明原文地址: https://www.6miu.com/read-82371.html

技术

最新回复(0)