朴素贝叶斯的方法是通过训练数据学习出联合条件概率分布P(X,Y),然后通过做条件性独立假设(朴素贝叶斯名称的由来),学习出条件概率分布P(X=x|Y=ck),从而利用贝叶斯公式P(Y=ck|X=x) = ((P(X=x|Y=ck) * P(Y=ck)) / ((P(X=x|Y=c1) * P(Y=c1) + (P(X=x|Y=c2) * P(Y=c2) + …),在做分类问题时,通过计算出每个x对应的后验概率值P(Y=ck|X=x),将后验概率最大的类作为x的类输出即可.具体的标准化公式如下:
具体地,P(X=x|Y=ck)通过条件独立性假设求出(条件独立假设等于是说用于分类的特征在类确定的情况下都是条件独立的,所以直接将各种情况的条件概率相乘从而获得整体的条件概率分布)
所以总的来说,有如下公式:
于是朴素贝叶斯分类器可以表示为:
但是上述公示的分母对于所有ck都是相同的,所以上述公式可以简化为:
朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。假设选择0-1损失函数:
上式中f(X)是分类决策函数,这是,期望风险函数为:
期望是对联合分布P(X,Y)取的,所以条件期望是:
为了使期望风险最小化,只需要对X=x逐个极小化,由此得到:
这样,期望风险最小化就得到了后验概率最大化准则:
朴素贝叶斯利用贝叶斯定理和学习到的联合概率模型进行分类预测,将输入x分到后验概率最大的类y中;
以上;