原文假设观察到的看似随机的文本数据是由潜在的语义结构(latent semantic structure)产生的。统计手段是去除噪音,评估潜在语义结构的手段。原文将基于潜在语义结构描述的terms和文本称之为Latent semantic indexing(LSI,用于信息检索的潜在语义)。LSI通过使用奇异值分解技术(singular-value decomposition, SVD)将庞大的term-document矩阵结构来构造语义空间(semantic space)。在语义空间中,紧密相关的term和文档被置于相邻的位置。
当前自动检索的失败主要是指无法解决同义词和一词多义问题。这些问题可以归因于三个因素。第一个因素是用于检索的词通常是不完整的,只包含用户试图查找信息的一部分;第二个因素是缺乏正确处理一词多义的方法;第三个因素是需要兼顾当前信息检索系统的工作机制。具体说来,一个相关的文本可能并不包含任何检索词,而不相关的文档却可能包含部分检索词。因此原文的目标是预测检索词真正蕴含的语义信息,通过更加可靠地指示物(indicants)来代替不完整的,不可信的检索词。
传统上,一模因子分析(one-mode factor analysis)的对象是同一类型对象对关系组成的矩阵。比如一个document-document矩阵。矩阵中的元素可能是人工评估的文档间的相似度。这个对称的方阵通过本征分析(eigen-analysis)分解为两个矩阵(分别包含本征向量,eigenvector和本征值,eigenvalue)。分解后的矩阵是由线性独立的“因子”构成。通常,许多因子都非常小,可以被忽略掉,产生一个原矩阵的近似。
二模因子分析(two-mode factor analysis)的对象是由不同对象对关系组成的矩阵。比如term-document matrix。这个矩阵可以使用singular value decomposition(SVD)分解为三个特殊的矩阵, term-term, document-document, 和 term-document matrix。与一模因子分析类似,这些矩阵由独立因子构成。SVD通过重新构建空间反应了数据间的主要关联模式,忽视了作用较小、不重要的影响。因此,根据发现的关联模式,在一篇文档中没有出现过的term可能在语义空间中紧邻该文档。语义空间中的位置信息扮演了语义索引的角色。
一条查询语句通常被表示为term vectors的加权和。
Ref. Indexing by Latent Semantic Analysis