1、加入L2正则项Ridge,对噪声的容错能力增强,作用是最大化分类间隔,使得分类器拥有更强的泛化能力。
2、Hinge 损失函数,作用是最小化经验分类错误.。
3、间隔应该是2/||w||,||w||代表向量的模,向量的模通常指的就是其二范数。
4、考虑软间隔的时候,C对优化问题的影响就在于把a的范围从[0,+inf]限制到了[0,C]。C越小,那么a就会越小,目标函数拉格朗日函数导数为0可以求出w=求和a_i*y_i*x_i,a变小使得w变小,因此间隔2/||w||变大,分类错误越多,趋于欠学习。