短文本分类

xiaoxiao2021-02-27  247

给text grocery 做个广告。

短文本分类因为特征少,无法得到好的效果。另外,文本短提供的信息有限,需要的样本大,无法通过人工标注来做(减少人工)。

如何扩展特征?

长文本分类方法。84% 尝试用Word2vec对tfidf大的词汇进行扩展。 不可用。  尝试用lda来扩展特征。 86%. ------ 因为lda扩展的特征有限。一般一条微博只能扩到1到2个特征。 尝试使用bigram来做特征扩展,效果最好。基于libshorttext。 95% 以上。 ------ 就是textgrocery。

如何获取训练文本?

1.通过纯度较高的微博分类账户作为初始训练数据。 2.根据已有数据建立高招回分类器来扩展正例。 3.对已有正例的特征做皮尔逊相关系数排序。用排名较高的词汇进行solr搜索来获取正例。

更好的拟合现有数据? 将训练集的badcase减少

对badcase中svm排序最高来扩展正例。计算badcase的相关系数,特征使用词+bigram。 选取正例加入到训练集。

转至:https://segmentfault.com/a/1190000003939497

转载请注明原文地址: https://www.6miu.com/read-8703.html

最新回复(0)