TextRank: Bringing Order into Texts阅读笔记

xiaoxiao2021-02-28  31

本文介绍了TextRank - 一种基于图形的文本处理排名模型,并展示了如何在自然语言应用程序中成功使用该模型。 文章提出了关键词和句子提取两种创新的无监督方法,并且表明所获得的结果与先前公认的已建立基准测试结果相比有提升。

基于图的排序算法本质上是基于从整个图形递归绘制的全局信息来决定图中顶点的重要性的方式。 基于图的排名模式实现的基本思想是“投票”或“推荐”。 当一个顶点链接到另一个顶点时,它基本上是为另一个顶点投票。 顶点投射的投票数越多,顶点的重要性就越高。 此外,投票的重要性决定了投票本身的重要性,而排名模型也考虑到了这一信息。 因此,与顶点相关联的分数基于为其投票的票以及投这些票的顶点的分数来确定。意思就是顶点之间有边相连,则有边相连接的顶点为其投票,而这些顶点的分也就是投出来票的权重。

文本作为图 为了使基于图的排序算法能够应用于自然语言文本,必须构建一个表示文本的图,并将具有语义关系的单词或其他文本实体用边相连。可以将各种尺寸和特征的文本单位作为顶点添加到图中。 单词,搭配,整个句子或其他。 类似地,也要规定了用于连接任何两个这样的顶点之间的连接的关系类型,例如。 词汇或语义关系,语境重叠等

无论添加到图中的元素的类型和特征如何,将基于图的排序算法应用于自然语言文本包括以下主要步骤: (1)确定最佳定义手头任务的文本单位,并将其作为顶点添加到图形中。 (2)识别连接这些文本单元的关系,并使用这些关系在图中的顶点之间绘制边。 边可以是有向的或无向的,加权的或未加权的。 (3)迭代基于图的排序算法,直到收敛。 (4)根据最终得分对顶点进行排序。 使用附加到每个顶点的值进行排名/选择决策。

此文介绍了二种抽出任务:(1)一个关键词提取任务,包括对给定文本进行代表的关键短语的选择; 和(2)句子提取任务,由文本中最重要的句子的识别组成,可用于构建抽取式摘要。

2.关键词抽取 关键字提取应用程序的任务是在文本中自动识别一组最能描述文档的术语。 这样的关键字可以构成用于构建文档集合的自动索引的有用条目,可以用于对文本进行分类,或者可以用作给定文档的简明摘要。 此外,用于自动识别文本中重要术语的系统可用于术语提取和域特定词典的构建。 最简单的方法可能是使用词频标准来选择文档中的“重要”关键字。然而,这种方法通常被认为导致不work的结果,因此探索了其他方法。该领域的最新技术目前由监督的学习方法代表,其中包括基于词汇和句法特征的系统被训练来识别文本中的关键字。

TextRank用于关键词提取 此任务预期的最终结果是一组代表给定自然语言文本的单词或短语。因此,要排名的单位是从文本中提取的一个或多个词汇单位的序列,并且这些单词表示添加到文本图形中的顶点。 可以在两个词汇单元之间定义的任何关系是可以在两个这样的顶点之间添加的潜在有用的连接(边)。

词的边:共生关系,即二个实体共同出现在最大N个实体窗口内,则二个顶点连接。

选择词的trick:使用语法过滤器,选择词为名词或者动词(此次可以引申,比如加入关键形容词等)。使用单个词集合,避免重词导致图过大。

TextRank关键词提取算法是完全无监督算法,进行如下: (1)先tokenized化文本,并进行词性标注。 (2)将通过句法过滤器的所有词汇单元添加到图中,并且在N个词的窗口内共同发生的词汇单元之间添加边。 在构建图形(无向未加权图)之后,将与每个顶点相关联的分数设置为初始值1,并且根据排序算法在图上运行多次迭代,直到它收敛 - 通常为20- 30次迭代,阈值为0.0001。 (3)获得了图中每个顶点的最终分数,顶点按其分数的相反顺序进行排序,并保留排名中的前top T顶点进行后期处理。 (4)在后期处理期间,所有词汇单位被选中作为TextRank算法的潜在关键词在文本中标记,并显示相邻关键字的序列被折叠成多字关键字。

3.句子抽取 TextRank包括自动总结的句子提取。 在某种程度上,句子提取的问题可以被认为与关键词提取相似,因为这两个应用都旨在识别给定文本更“代表”的序列。在关键词提取中,候选文本单元由单词或短语组成,而在句子提取中,处理整个句子。

TextRank语句提取:

要应用TextRank,我们首先需要构建与文本相关联的图,其中图顶点代表要排名的单位。对于句子提取的任务,目标是对整个句子进行排序,因此在文本中的每个句子的图形中添加一个顶点。 文章定义了一种不同的关系,如果它们之间存在“相似性”关系,则确定两个句子之间的连接,其中“相似性”作为其内容重叠的函数被测量。两个句子的重叠可以简单地确定为两个句子的词汇表示之间的公共标记的数量,或者可以通过句法过滤器来运行,语法过滤器仅计算某个句法类别的单词。相似性公式:

句子抽取:

转载请注明原文地址: https://www.6miu.com/read-37211.html

最新回复(0)