最大似然: 通过求对数化简,可将目标方程转化为最小化均方误差, 特点:忽略先验,最终求得参数的单点估计。 贝叶斯: 特点:考虑先验,求解参数的完整概率密度函数(贝叶斯后验概率分布) 其中P(w)认为设定(如服从均值为0,方差为I的高斯分布) p(y|X,w): 最大后验(MAP): 特点:将先验转化为最大似然中的惩罚项。许多正规化估计方法,例如权重衰减正则化的最大似然学习,可以被解释为贝 叶斯推断的MAP近似。这个适应于正则化时加到目标函数的附加项对应着log p()。 并非所有的正则化惩罚都对应着MAP 贝叶斯推断。例如,有些正则化项可能不是一 个概率分布的对数。还有些正则化项依赖于数据,当然也不会是一个先验概率分布。MAP贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化项。例如,通过混合高斯模型可得到更复杂的正则化项。