Latent&nbsp;Semantic&nbsp;Indexing

xiaoxiao2021-02-28 117

原文假设观察到的看似随机的文本数据是由潜在的语义结构（latent semantic structure）产生的。统计手段是去除噪音，评估潜在语义结构的手段。原文将基于潜在语义结构描述的terms和文本称之为Latent semantic indexing（LSI，用于信息检索的潜在语义）。LSI通过使用奇异值分解技术（singular-value decomposition, SVD）将庞大的term-document矩阵结构来构造语义空间（semantic space）。在语义空间中，紧密相关的term和文档被置于相邻的位置。

当前自动检索的失败主要是指无法解决同义词和一词多义问题。这些问题可以归因于三个因素。第一个因素是用于检索的词通常是不完整的，只包含用户试图查找信息的一部分；第二个因素是缺乏正确处理一词多义的方法；第三个因素是需要兼顾当前信息检索系统的工作机制。具体说来，一个相关的文本可能并不包含任何检索词，而不相关的文档却可能包含部分检索词。因此原文的目标是预测检索词真正蕴含的语义信息，通过更加可靠地指示物（indicants）来代替不完整的，不可信的检索词。

传统上，一模因子分析（one-mode factor analysis）的对象是同一类型对象对关系组成的矩阵。比如一个document-document矩阵。矩阵中的元素可能是人工评估的文档间的相似度。这个对称的方阵通过本征分析（eigen-analysis）分解为两个矩阵（分别包含本征向量，eigenvector和本征值，eigenvalue）。分解后的矩阵是由线性独立的“因子”构成。通常，许多因子都非常小，可以被忽略掉，产生一个原矩阵的近似。

二模因子分析（two-mode factor analysis）的对象是由不同对象对关系组成的矩阵。比如term-document matrix。这个矩阵可以使用singular value decomposition（SVD）分解为三个特殊的矩阵， term-term, document-document, 和 term-document matrix。与一模因子分析类似，这些矩阵由独立因子构成。SVD通过重新构建空间反应了数据间的主要关联模式，忽视了作用较小、不重要的影响。因此，根据发现的关联模式，在一篇文档中没有出现过的term可能在语义空间中紧邻该文档。语义空间中的位置信息扮演了语义索引的角色。

一条查询语句通常被表示为term vectors的加权和。

Ref. Indexing by Latent Semantic Analysis

转载请注明原文地址: https://www.6miu.com/read-22952.html

技术

最新回复(0)

Latent&amp;nbsp;Semantic&amp;nbsp;Indexing

技术

Latent Semantic Indexing