《数学之美》第6章 信息的度量和作用

xiaoxiao2021-02-28  41

1 信息熵

    一条信息的信息量与其不确定性有着直接的关系。信息量就等于不确定性的多少。

    如何量化信息量的度量?  信息熵(entropy) 用符号H表示,单位是比特。

     

    变量的不确定性越大,熵也就越大。

    如果一本书重复的内容很多,它的信息量就小,冗余度就大。

    不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。

2 信息的作用

    信息和消除不确定性是相互联系的。

    信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)

    网页搜索的本质也是利用信息消除不确定性的过程。

    合理利用信息,而非玩弄公式和机器学习的算法,是做好搜索的关键。

    条件熵:

            

                ,也就是说多了Y的信息之后,关于X的不确定性就下降了!在统计语言模型中,如果把Y看成是前一个字,那么在数学上就证明了二元模型的不确定性小于一元模型。

                  上述等号什么时候成立?等号成立,说明增加了信息,不确定性却没有降低。如果我们或缺的信息与要研究的事物毫无关系,等号就成立。

    信息的作用在于消除不确定性,自然语言处理的大量问题就是寻找相关信息。

3 互信息

    香农提出一个“互信息”的概念作为两个随机事件“相关性”的量化度量。

    

        所谓两个事件相关性的量化度量,就是在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。

4 相对熵

    相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性。

        两个完全相同的函数,它们的相对熵等于零。

        相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。

        对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

                

转载请注明原文地址: https://www.6miu.com/read-2623390.html

最新回复(0)