【论文阅读】《Delta TFIDF：An Improved Feature Space for Sentiment Analysis》（论文及实验）

xiaoxiao2021-02-28 31

Delta TFIDF

论文中提出了一种在文本分类之前给单词加权的计算方法，并使用SVM对三个数据集进行情感分析。

方法

在词袋模型中，每一个单词或者n-gram字都与一个值相关联。这些值通常都是文档中的数字。有时这些值会根据其对应单词在文档中的统计特征来进一步加权。相反，我们通过这些词在不同语料库中的出现情况来衡量它的值。

本方法通过计算某单词在正负语料库的TFIDF得分差异来为文档分配特征值。给定：

C_{t,d}

是单词

t

在文档

d

中出现的次数。

P_t

是正训练语料中包含单词

t

的文档数量。

∣ P ∣

是正训练语料总数。

N_t

是负训练语料中包含单词

t

的文档数量。

∣ N ∣

是负训练语料总数。

V_{t,d}

是单词

t

特征值在文档

d

中的特征值。

因此训练集中每个词的特征值可以写为：

$V_{t,d} = C_{t,d}*log_2(\frac{|P|}{P_t}) - C_{t,d}*log_2(\frac{|N|}{ N_t})\\= C_{t,d}*log_2(\frac{|P|}{P_t}\frac{N_t}{|N|}) \\=C_{t,d}*log_2(\frac{N_t}{P_t})$

这种词频转换方法提高了在正负样本之间分布不均匀的单词的重要性，并降低了均匀分布的单词的值，从而更好滴获得它们对情感的重要程度。其中，均匀分布的特征值应为0，分布越是不均匀的单词，其重要程度越高。有明显正向特征的词将具有正数分，有负向特征的分数将具有负分。

实验

结合论文中提出的方法，我在LMDB数据集上进行了实验（一个大型电影评论数据集，包含50k全长评论(Maas et al., 2011)），使用word2vec获得词向量，通过Delta TFIDF对每个词向量进行加权，求和形成每个文档的特征向量。使用神经网络对文本进行情感分类。

methodprecisionrecallf1-scoretfidf0.7840.7840.784idf0.8250.8250.825Delta-tfidf0.8770.8770.877

可以看到Delta-tfidf与tfidf、idf相比，在性能上有了明显的提升。

【参考文献】 Martineau J, Finin T. Delta TFIDF: An Improved Feature Space for Sentiment Analysis[C]// International Conference on Weblogs and Social Media, Icwsm 2009, San Jose, California, Usa, May. DBLP, 2009.

转载请注明原文地址: https://www.6miu.com/read-2632552.html

技术

最新回复(0)