jieba的简单使用

xiaoxiao2021-02-28 70

本文涉及jieba.cut、jieba.addword、jieba.load_userdict这3个函数

运行环境：IPython

import jieba; for w in jieba.cut("我爱Python"): print(w)

输出：

Building prefix dict from the default dictionary ... Loading model from cache D:\TEMP\jieba.cache Loading model cost 1.150 seconds. Prefix dict has been built succesfully. 我爱 Python

可以看到，该句的分词成功。

接下来来对分词界中一个很污很难的测试样例进行分词：

for w in jieba.cut("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"): print(w)

输出：

工信处女干事每月经过下属科室都要亲口交代 24 口交换机等技术性器件的安装工作

输出结果表示准确率很高。

seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢？") for w in seg_list: print(w)

输出结果：

真武七截阵和天罡北斗阵哪个更厉害呢？

从这里可以看到，一些比较偏的（比如这里小说中的特殊词汇——武功招式）就不可以被正确分词了，add_word函数提供了解决方法：

jieba.add_word('真武七截阵') #add_word保证添加的词语不会被cut掉 jieba.add_word('天罡北斗阵') seg_list = jieba.cut("真武七截阵和天罡北斗阵哪个更厉害呢？") for w in seg_list: print(w)

输出结果：

真武七截阵和天罡北斗阵哪个更厉害呢？

那么自然就会想到，如果靠add_word人工添加词，这样的效率实在太低了，load_userdic提供了解决方法：

jieba.load_userdict('金庸武功招式.txt') #添加词库矫正jieba分词 #“金庸武功招式”所在词库地址：http://pinyin.sogou.com/dict/，下载到的是.scel格式文件，可使用深蓝词库转换将文件格式转换为txt格式

转载请注明原文地址: https://www.6miu.com/read-52064.html

技术

最新回复(0)