极大似然估计 最大后验概率估计

xiaoxiao2021-02-27  180

经验风险最小化: minfF1NNi=1L(yi,f(xi)) 结构风险最小化: minfF1NNi=1L(yi,f(xi))+λJ(f) 李航博士《统计学习方法》中第一章第九页中有两个论断 1 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。 2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计

证明论断1: 极大似然估计:对于观测的随机变量D,其总体分布为 P(D;θ) (这里 θ 是一个未知的参数,是一个常量而不是变量) S为抽样得到的样本, S=(s1,s2,...,sN) ,样本是独立同分布得到的,因此样本的分布为 L(θ)=Ni=1P(si;θ) S=(s1,s2,...,sN) 确定,则上式可以看做是 θ 的函数。 这个函数反映了在观察结果已知的情况下, θ 的“似然程度”,因此上式被叫做似然函数。用似然程度最大的那个 θ 去做 θ 的估计,这种估计方法叫做”极大似然估计”。取对数,极大平均似然函数为: maxlogL(θ)=max1NNi=1logP(si;θ) 上式等价于 minlogL(θ)=min1NNi=1logP(si;θ) 在统计学习中,S就是样本, si=(xi,yi).xi,yi 当模型是条件概率分布时,则 P(si;θ)=P(yi|xi;θ) minlogL(θ)=min1NNi=1logP(yi|xi;θ)1 当损失函数是对数损失函数( L(Y,P(Y|X))=logP(Y|X) ),则最小化经验风险的公式为 minfF1NNi=1L(yi,f(xi))=minfF1NNi=1L(yi,p(yi|xi;θ))=minfF1NNi=1logp(yi|xi;θ)2 对比(1)(2)两个公式,论断1得证。

证明论断2: 极大似然估计将 θ 看做是一个确定但未知的常量,而贝叶斯学派则认为 θ 可以看做一个随机变量,从这个视角出发可得到条件概率 P(θ|S) 因此利用贝叶斯公式得到 P(θ|S)=P(S|θ)P(θ)P(S) 最大后验概率估计是要最大化 P(θ|S) 这个后验概率,因此 maxP(θ|S)=maxP(S|θ)P(θ) 上式与极大似然估计相比,只多了个 P(θ) ,左边和极大似然估计一样,因此对左边取对数处理求平均似然最大 max1NNi=1logP(si|θ)+logP(θ) 当模型是条件概率分布时,则 P(si;θ)=P(yi|xi;θ) 因此, max1NNi=1logP(yi|xi;θ)+logP(θ) 取负号,转换为 min1NNi=1logP(yi|xi;θ)logP(θ)(3) 当损失函数是对数损失函数( L(Y,P(Y|X))=logP(Y|X) ),模型是条件概率分布时, 结构风险最小化公式 minfF1NNi=1L(yi,f(xi))+λJ(f)=minfF1NNi=1logP(yi|xi;θ)+λJ(f)(4) 比较公式(3)(4),则当 λJ(f)=logP(θ) 两者等价,论断2得证。

转载请注明原文地址: https://www.6miu.com/read-9389.html

最新回复(0)