Similarity in vector Space
Cosine Distance
Euclidean Distance
Manhattan Distance
Chebyshev Distance
Jaccard Coefficient
Similarity in probabilistic space
生成模型将文档表示为概率分布。为了比较两个文档的相似性(概率分布的相似性),给出如下基于信息论的距离比较方法[5]。另另p={p1, …, pR}和q= p={q1, …, qR}为同一变量的概率质量函数。这两个概率分布的Kullback-Leibler (KL) 距离定义为:
KL的取值是非负、非对称的,当两个分布完全相同时,取值为0.
Jensen-Shannon (JS)距离是KL的一个对称、光滑版本:
Hellinger距离:
其中是Bhattacharyya 系数,余弦相似度的概率分布版本。