深度学习笔记(2) 概率与信息论

xiaoxiao2025-04-22  22

1.概率论与信息论

概率论使我们能够作出不确定的声明以及在不确定性存在的情况下进行推理,而信息论使我们能够量化概率分布中的不确定性总量

2.概率的意义

(1)频率派概率:概率与事件发生的频率相联系(频率派把需要推断的参数θ看做是固定的未知常数,即概率θ虽然是未知的,但最起码是确定的一个值,同时,样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布)

(2)贝叶斯派概率:用概率来表示信任度(贝叶斯派认为参数θ是随机变量,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数θ的分布。即在得到新的样本信息之前,人们对的认知是先验分布 n(θ),在得到新的样本信息后χ,人们对θ的认知为n(θ|χ))

3.概率分布(用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性的大小)

离散型变量——概率质量函数PMF——  

连续型变量——概率密度函数PDF——  

4.联合概率分布与边缘概率分布

(1)联合概率分布:是两个及以上随机变量组成的概率分布,指的是包含多个条件且所有条件同时成立的概率

(2)边缘概率(先验概率)分布:边缘概率是与联合概率对应的,或,这类仅与单个随机变量有关的概率称为边缘概率(边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化,比如A的边缘概率表示为P(A),B的边缘概率表示为P(B)

离散型:

                

连续型:

                                         

5.条件概率(后验概率)

(1)指事件A在另外一个事件B已经发生条件下的发生概率

其中时条件概率才有意义(不能计算永远不会发生的事件下的条件概率)

(2)链式法则

任何多维随机变量的联合概率分布都可以分解为只有一个变量的条件概率相乘的形式

(3)联合概率、边缘概率、条件概率的关系

      联合概率P(X=a,Y=b) :满足X=a且Y=b的面积

      边缘概率P(X=a) :不考虑Y的取值,所有满足X=a的区域的总面积

      条件概率P(X=a | Y=b) :在Y=b的前提下,满足X=a的面积(比例)

6.独立性和条件独立性

(1)相互独立:若事件x,y同时发生的概率等于各自发生的概率的乘积,则x,y相互独立,用x⊥y表示

(2)性质:

 设A,B是两事件。且P(A)>0,若A,B相互独立。则,反之亦然

 若事件A与B相互独立,则与B,A与,与也相互独立

(3)条件独立:若在事件z发生的条件下x,y同时发生的概率等于在事件z发生的条件下各自发生的概率,则x,y在z发生的条件下相互独立,用x⊥y|z表示

7.期望、方差、协方差、相关系数

(1)期望(衡量当前概率分布下,函数取值的平均值)

①对于离散型随机变量:

表示函数f(x)关于某分布P(x)的期望

②对于连续型随机变量:

         表示函数f(x)关于某分布p(x)的期望

(2)方差(衡量当前概率分布下,依据随机变量x的概率分布进行采样时,x的函数值的差异)

(3)协方差(衡量两个变量线性相关性的强度(定性分析)以及这些变量的变化幅度)

说明:

①协方差为正,说明当x(y)趋向于取得相对绝对值较大的值时,y(x)也趋向于取得相对于绝对值较大的值;协方差为负,说明当x(y)趋向于取得相对绝对值较大的值时,y(x)趋向于取得相对于绝对值较小的值

②协方差的绝对值越大说明同向(反向)的程度越大(变量值同时距离各自的均值很远)

注:

①若两个变量相互独立,则它们的协方差为零;若两个变量的协方差不为零则两个变量一定相关

②两个变量的协方差为零,一定没有线性关系,但是可能有其他关系,不一定是相互独立的

            n维随机变量的协方差矩阵是一个n x n的半正定(即实对称)矩阵并且满足且其对角元是方差(计算是不同维度之间的协方差,而不是不同样本之间)

(4)相关系数(它消除了两个变量变化幅度的影响(定量分析),将变量的贡献归一化,而只是单纯反应两个变量变化时的相似程度)

                                                  

说明:

①时,说明两个随机变量变化趋势完全正相关,即满足,其中

②时,说明两个随机变量变化趋势完全负相关,即满足,其中

③的时候,说明两个随机变量变化趋势具有一定程度的线性关系

8.常用概率分布

(1)Bernoulli伯努利分布(0-1分布)

是一个二值随机变量的分布,由单个参数∅∈[0,1]控制

表达式

                      

期望

方差

例:明天下雨的概率为0.8,不下雨的概率为0.2

(2)二项分布

在n次独立重复试验中,每次试验可能的结果只有两种,发生和不发生,发生标记为事件A,每次试验事件A发生的概率为p,事件A出现的次数为随机变量X,n次试验中事件A出现k次的概率符合二项式分布概率,记为。

例:掷一个均匀的色子5次,其点数大于4的次数的概率图

(3)多项式分布(二项分布的推广)

假设随机试验有k个可能的结果,每个结果出现的次数为随机变量,每个结果出现的概率为,n次独立重复试验中随机事件出现的次数分别为的概率符合多项式分布概率。

(4)Multinoulli分布(范畴分布,多项式分布的一个特例)

指在具有k个不同状态的单个离散型随机变量上的分布,其中k是一个有限值,其概率分布函数表示该变量某一状态出现(所有可能出现的次数的概率的和)的概率

(5)高斯分布(正态分布)

①一维正态分布

若随机变量X服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度为

则这个随机变量称为正态随机变量,正态随机变量分布称为正态分布,记作或,其中μ为分布的均值,为分布的标准差

性质:

a.如果,那么

b.如果与是相互独立的正态随机变量,那么他们的和也满足正态分布,他们的差也满足正态分布 

注:

在缺乏关于某个实数分布上的先验知识的条件下采用正态分布模型是比较好的选择(现实中大部分模型都比较接近正态分布(中心极限定理);在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性)

②多维正态分布

多个随机变量组成一个n维向量,

其中μ为分布的均值(向量),Σ为分布的协方差矩阵

(6)指数分布和泊松分布

①指数分布

指数分布在x=0处取得边界点, 可以用来表示独立随机事件发生的时间间隔,具有无记忆性

②泊松分布

如果某事件以固定强度λ,随机且独立地出现,该事件在单位时间内出现的次数(个数)可以看成是服从泊松分布

③如果某事件以固定强度λ,随机且独立地出现,该事件在单位时间内出现的次数(个数)可以看成是服从泊松分布。我们往往计算的是单位时间内出现的次数多少的概率,也就是说,出现1次的概率,两次的概率。

指数分布可以用来表示独立随机事件发生的时间间隔,我们往往计算的是在1个单位时间内事件没有发生的概率,然后推出在1个单位时间内事件发生的概率。同理,我们计算的是在2个单位时间内事件没有发生的概率,然后推出在2个单位时间内事件发生的概率。

(7)Laplace拉普拉斯分布(在希望概率密度在某一指定点达到峰值时使用)

拉普拉斯分布的密度函数关于x=μ 对称,且在该点达到极大值  μ越小曲线越陡, μ越大曲线越平坦。它有两个拐点

(8)Dirac分布和经验分布

①Dirac分布(在希望概率分布中的所有质量都集中在一个点上时使用)

Dirac分布具有一个在x=μ处具有无限窄也无限高的峰值的概率密度函数

②经验分布(在希望概率分布中的所有质量都集中在m个点上时使用)

经验分布将概率密度赋给m个点,这些点是给定的数据集或者采样的集合,当随机变量为离散型时,经验分布变为Multinoulli分布

(9)分布的混合

高斯混合模型是概率密度的万能近似器,任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近

9.常用函数的性质

(1)logistic sigmoid函数

用于产生伯努利分布中的参数φ

sigmoid在变量绝对值非常大时会出现饱和现象,对输入微小的改变不敏感

(2)softplus函数

用于产生正态分布的β和σ参数

(3)性质

10.贝叶斯规则

用来在已知P(y|x)时计算P(x|y)

其中P(y)通常使用计算

(事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示)

11.信息论(用来描述概率分布或者量化概率分布之间的相似性)

(1)信息论的基本想法:一个不太可能的事件居然发生了,要比一个非常可能发生的事件发生,能提供更多的信息

(2)自信息

用来衡量单一事件发生时所包含的信息量多少

                                                                            (log函数基的选择是任意的,通常为e或2)

                                                                                            (对应单位为奈特(nats))

                                                                              (对应单位为比特bit或者香浓(shannons))

(通过比特度量的信息只是通过奈特度量信息的常数倍)

(3)香农熵

用来对整个概率分布中的不确定性总量进行量化(即遵循这个分布的事件所产生的期望信息总量,即信息量的期望

随机变量P={}的熵定义为 

(随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大)

(4)KL散度(相对熵)

①用来衡量两个独立的概率分布之间的差异(距离)

②性质:

a.当且仅当P与Q为相同分布时,KL散度为零。所以假设有一个分布p(x),想用另一个分布q(x)近似,可以选择最小化二者之间的KL散度。

b.对于某些分布,KL散度不是对称的,即

(图中P为两个高斯分布的混合,Q为单个高斯分布,认为P是真实分布,Q是用来近似P的分布)

用分布Q来近似分布P时,可以选择最小化。KL散度方向的选择取决于每种应用。在最小化(左)的情况下,使得Q在P具有最高概率的地方具有最高峰(当P具有多个峰时,Q将这些峰模糊到一起,以便将高概率质量放到所有峰上);在最小化(右)的情况下使得Q在P具有最低概率的地方具有最低概率(当P具有多个峰并且这些峰间隔很宽时,Q会选择单个峰,以避免将概率质量放置在P的多个峰之间的低概率区域中)

(5)交叉熵

也可以用来衡量两个分布之间的差异,最小化KL散度等价于最小化交叉熵(Q不参与被省略的一项)

交叉熵定义为:

(交叉熵广泛用于逻辑回归的Sigmoid和Softmax函数中作为损失函数使用)

12.结构化概率模型(图模型)

(1)用图来表示概率分布的分解,将联合概率分布分解成多个概率函数连乘的形式,可以极大减少描述一个分布的参数的数量。其中,图的每个节点对应一个随机变量,连接随机变量的边意味着概率分布可以表示成这两个随机变量之间的直接作用

(2)使用有向图的模型

用条件概率来表示分解。有向模型对于分布中的每一个随机变量都包含一个影响因子,组成条件概率模型的影响因子被称为的父节点,记为

                                                该图对应概率可以分解为

(3)使用无向图的模型

无向图中任何满足两两之间有边连接的顶点的集合被称为团,且每个团都伴随一个因子这些因子只是函数并不是概率分布,但每个因子都必须是非负的,其和或积分也不一定为1),随机变量的联合概率与所有这些因子的乘积成比例(由于不能保证乘积之和为1,需用一个常数Z来归一化,即Z为∅函数乘积的所有状态的求和或积分)

                                                   该图对应概率可以分解为

 

 

贝叶斯部分参考:https://www.cnblogs.com/zhoulujun/p/8893393.html

指数分布泊松分布部分参考:https://www.imooc.com/article/details/id/29670

转载请注明原文地址: https://www.6miu.com/read-5028876.html

最新回复(0)