1,jieba中的cut函数
jieba.cut(text,cut_all=True,HMM=True) 返回的是一个生成器 ,cut_all指定是否采用更小粒度进行划分,HMM表示是否使用HMM模型
jieba.lcut(text,cut_all=True,HMM=True) 返回的是list列表,参数含义同上
2,pad_sequence序列补齐
from keras.preprocessing.sequence
import pad_sequences
data = [[
1,
2,
3],[
4,
5],[
6,
7,
8,
9]]
y0 = pad_sequences(data)
y1 = pad_sequences(data,
maxlen=
5,
padding=
'post')
print(
'=======\n',y1)
y2 = pad_sequences(data,
maxlen=
3,
padding=
'post')
print(
'=======\n',y2)
y3 = pad_sequences(data,
maxlen=
3,
padding=
'pre')
print(
'=======\n',y3)
结果如下: [[1 2 3 0 0]
[4 5 0 0 0]
[6 7 8 9 0]]
=======
[[1 2 3]
[4 5 0]
[7 8 9]]
=======
[[1 2 3]
[0 4 5]
[7 8 9]]
注:其中pre是向前填充,post是向后填充。填充完成后保留最后k个数据