在数理统计( mathematical statistics )中, Kullback–Leibler divergence 使用来衡量一个概率分布和预期的概率分布偏离的程度。在信息系统( information system )中我们称其为相对熵( relative entropy )
从概率分布 Q 到概率分布P的散度( divergence )我们用 DKL(P||Q) 来表示
在机器学习( machine learning )中, 如果我们用 P 来代替Q, 则 DKL(P||Q) 我们也称其为信息增益 (information gain)
在贝叶斯推理( Bayesian inference )中, 我们用 DKL(P||Q) 来表示信息增益( information gain )。其中是 Q 是先验概率分布(prior probability distribution), 而 P 则是后验概率分布(posterior probability distribution)。
DKL(P||Q)=0 表示 P 和Q是一样的 DKL(P||Q)=1 表示 P 和Q不一样的
P 和Q是离散概率分布( discrete probability distributions ), 则 P 和Q的散度表示为
DKL(P||Q)=∑iP(i)logP(i)Q(i) P 和Q是连续随机变量( continuous random variable ), 则 P 和Q的散度表示为 DKL(P||Q)=∫+∞−∞p(x)logp(x)q(x)dxhttps://en.wikipedia.org/wiki/Kullback–Leibler_divergence