负熵(看了好久，竟然这么简单,哎！…

xiaoxiao2021-02-28 118

今天看数据挖掘建立判定树的部分，被熵折磨得很痛苦，看了这篇博客稍微懂了一些，数学不好还是码农的孩纸桑不起啊！文章转载自 chl033http://blog.csdn.net/chl033/article/details/4795154

首先明确一下熵的概念，虽然它是一个热力学度量，但是现在已经广泛应用在了数据分析的方方面面。

熵（ectropy）指的是体系的混乱程度，是体系的转台函数，其值与达到状态的过程无关（所以才可以用来预测啊），下面是正经的了

【概率与信息】

事件A的概率P(A)是A发生可能性的大小的度量。

P(A)越大，则A发生带来的信息越少；反之，P(A)越小，则A发生带来的信息越大。(点睛之笔啊,hoho)

例子:有人对你说“某日巴西足球队战胜了中国队”，你觉得他没有给你多少信息，因为这件事发生的概率非常大，结果几乎在预料当中。但如果他说巴西负于某个亚洲队，你会感觉得到的信息不少。

猜想

1. 事件A发生所带来的信息量H(A)应该是它发生的概率P(A)的严格减函数，而且A是必然事件时H(A)=0（“巴西队战胜中国队”）。

2. 若事件A与事件B相互独立，则A与B都发生带来的信息量应该是H(A)与H(B)之和，即H(AB)=H(A)+H(B)

【引理】

设Ｈ（ｕ）是（0,1）上的严格减函数，H(1)=0，则为了满足H(uv)=H(u)+H(v)，对于一些的00，使得H(u)=-c*ln(u)(c是一个正的常数，它的大小涉及信息量的单位，为了简单起见，一般取c=1)

定义1——信息量表示

设事件A的概率是P(A),P(A)>0,则称H(A)=-lnP(A)为A带来的信息量；

定义2——完备事件组的熵

设A1到An（n>=2）是条件S下的完备事件组，P(Ai)>0,对i=1，…n，则称P(A1,…An)=sumP（Ai）lnP(Ai)，为完备事件组A1…An的熵。（Very Important）

【定理】

设A1到An（n>=2）是完备事件组，则当且仅当P(A1)=…P(An)时熵最大。

即，若条件S下可能发生的互不相容的事件至少有两个，则当且仅当这些事件有相等的概率的时候结果的不确定性最大。

转载请注明原文地址: https://www.6miu.com/read-32570.html

技术

最新回复(0)