jieba中文分词工具

xiaoxiao2021-02-28 83

jieba分词主要是基于统计词典，构造一个前缀词典；然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图；通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。 1 特征：支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典

2 方法：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法 3 功能 3.1 分词 jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式 jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细注意：待分词的字符串可以是gbk字符串、utf-8字符串或者unicode jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(…))转化为list

#! /user/bin/env python #encoding=utf-8 __author__ = 'chw' import jieba name='我是中国人' # seg_list=jieba.cut(name)#默认是精确模式 # seg_list=jieba.cut(name,cut_all=False)#精确模式 # seg_list=jieba.cut(name,cut_all=True)#全模式 seg_list=jieba.cut_for_search(name)#搜索引擎模式 print ",".join(seg_list)

结果:

默认是精确模式:我,是,中国,人精确模式:我,是,中国,人全模式:我,是,中国,国人搜索引擎模式:我,是,中国,人

3.2 添加自定义词典开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率用法： jieba.load_userdict(file_name) # file_name为自定义词典的路径词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开

参考：http://www.oschina.net/p/jieba/ http://blog.csdn.net/rav009/article/details/12196623 http://www.cnblogs.com/zhbzz2007/p/6084196.html

转载请注明原文地址: https://www.6miu.com/read-79963.html

技术

最新回复(0)