向量空间中的相似度度量方法

xiaoxiao2021-02-28  146

Similarity in vector Space

Cosine Distance

Euclidean Distance

Manhattan Distance

Chebyshev Distance

Jaccard Coefficient

Similarity in probabilistic space

生成模型将文档表示为概率分布。为了比较两个文档的相似性(概率分布的相似性),给出如下基于信息论的距离比较方法[5]。另另p={p1, …, pR}q= p={q1, …, qR}为同一变量的概率质量函数。这两个概率分布的Kullback-Leibler (KL) 距离定义为:

 

KL的取值是非负、非对称的,当两个分布完全相同时,取值为0.

Jensen-Shannon (JS)距离是KL的一个对称、光滑版本:

 

Hellinger距离:

 

其中Bhattacharyya 系数,余弦相似度的概率分布版本。

转载请注明原文地址: https://www.6miu.com/read-21709.html

最新回复(0)