jie ba分词

xiaoxiao2025-08-11  24

1 .cut()函数,将句子进行分词 .cut(待处理的句子,处理时使用的模式) 全模式jieba.cut(sentence,cut_all =True):分的词比较全,但词汇可能有叠加 精准模式jieba.cut(sentence,cut_all=False),与全模式相对立,词汇无叠加 搜索引擎模式jieba.cut_for_search(语句)

对于输出,需要通过循环将其遍历出来

for item in w1: print(item)

2 .posseg()函数,进行词性标注 a:形容词 c:连词 d:副词 e:叹词 f:方位词 i:成语 m:数词 n:名词 nr:人名 ns:地名 nt:机构团体 p:介词 r:代词 t:时间 u:助词 v:动词 vn:名动词 w:标点符号 un:未知词语

import jieba.posseg w5 = jieba.posseg.cut(sentence) #.flag词性 #.word词语 for item in w5: print(item.word+"-----"+item.flag)

3 识别自定义词汇 (1)导入自己创建的文本,编码格式须设置为UTF-8格式: jieba.load_userdict(自己创建的文本的地址)

(2)人为强行设施自定义词汇,帮助识别: jieba.add_word(“自定义词汇”) jieba.suggest_freq(“自定义词汇”, tune=True)

(3)提取频率最高的几个关键词方法: 使用前先导入import analyse jieba.analyse.extract_tags(句子, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,即频率最高的前topK个词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选

4.返回词语位置 jieba.tokenise(sentence)

w9 = jieba.tokenize("陶云科技是做云计算的") for item in w9: print(item)

转载请注明原文地址: https://www.6miu.com/read-5034681.html

最新回复(0)