Tencent

xiaoxiao2025-07-31 62

腾讯AI Lab近日宣布开源大规模、高质量的中文词向量数据集，该数据包含800万中文词汇。

此次公布的中文词向量数据在覆盖率、新鲜度和准确性上有大幅提高，具体的训练及方法在这里不在赘述。

下载地址为https://ai.tencent.com/ailab/nlp/embedding.html，压缩包为6.3G，解压后有15.5G

中文词向量保存在txt文件中，第一行为词汇的总数和词向量维度。从第二行开始，每一行由单词（包括标点符号）和具体的词向量组成，之间用空格隔开。具体的读取方法如下所示。

with open(r'E:\Tencent_AILab_ChineseEmbedding\Tencent_AILab_ChineseEmbedding.txt','r',encoding='utf-8') as f: f.readline()#第一行为词汇数和向量维度，在这里不予展示 f.readline() m=f.readline()#读取第三个词 vecdic = dict()#构造字典 vectorlist = m.split()#切分一行，分为词汇和词向量 vector = list(map(lambda x:float(x),vectorlist[1:]))#对词向量进行处理 vec = np.array(vector)#将列表转化为array vecdic[vectorlist[0]]=vec print(vectorlist[0]) print(vecdic['的'])

结果如下图所示：

转载请注明原文地址: https://www.6miu.com/read-5034047.html

Java

最新回复(0)