Machine Learning第七讲[支持向量机] --(一)最大间隔分类

xiaoxiao2021-02-28  29

内容来自Andrew老师课程Machine Learning的第七章内容的Large Margin Classification部分。

 

一、Optimization Objective(SVM优化目标)

 

在logistic回归模型中,$g(z)=\frac{1}{1 + e^{-z}}$,其对应的图形如下所示:

(1)若y=1,我们想要,则。

(2)若y=0,我们想要,则。

 

在此基础上,我们来看,若logistic回归只有一样样本,则其Cost函数如下图所示:

(1)在y=1的情况下,只剩下Cost的左边一项,当y=0时,只剩下Cost的右边一项,其对应的图形如上图中的平滑曲线。

(2)我们在logistic曲线的基础上修改,将其修改成上图紫色曲线所示,即如下图:

 

SVM的代价函数:

我们通过最小化目标函数能够得到对应的参数值C

支持向量机中h(x)如下:

 

二、Large Margin Intuition(最大间隔的直观感知)

 

在上面的内容中讲到SVM的目标函数是:

若C是一个非常大的数,假设C=100,0000,则我们希望找到一个能使C后面的求和函数为0的解,这样会使得目标函数最小化,在这种情况下,目标函数变成:

 

SVM决策边界:线性划分

这里引入margin的概念,如下图:

SVM便是努力地将正样本和负样本用最大间距分开。

 

在存在离群点的线性可分边界

上图中A、B、C、D都是异常数据。

在不考虑异常数据的情况下,若C非常大,原来的边界应该是黑色的线,但是在加入了异常点A之后,边界变成紫色的线,因为一个异常点就改变了划分边界,这是不明智的。

因此,若C不是非常大,即使一些异常数据,如A、B、C、D等,支持向量机也能够把不同的类正确区分开(支持向量机这时候可以忽略一些异常因素,得到更好的决策边界),甚至不是线性可分的情况下,SVM也可以得到好的结果。

 

三、Mathematics Bebind Large Margin Classification(最大间隔分类背后的数学原理)

 

本部分内容主要讲最大间距分类器背后的数学原理。

首先来了解一下内积的概念,即:

其中p是可正可负的

如下图:

 

SVM决策边界:

因为,是在上的投影,因此的约束条件可以表示为:

 

 

下图说明为何SVM会选择具有最大间隔的超平面(决策边界):

 

(1)先看左图,这是一个反面示例,绿色的线表示决策边界,这不是一个好的决策边界,为什么不是呢?原因如下:

正例情况下,即当时,,从图中可以看到,p^{(1)}(红色)比较小,因此若需要满足不等式,||θ||需要非常大。

负例情况下,即当时,,从图中可以看到,p^{(2)}(紫色)比较小,因此若满足不等式,也需要||θ||非常大。

但是,最小化目标函数需要||θ||越小越好,因此出现矛盾,因此这个绿色的决策边界不是一个很好的决策边界。

(2)再看右图,右图中绿色的线表示决策边界,这是一个很好的决策边界,为什么呢?

当时,,从图中可以看到,p^{(1)}(红色)比(1)中的大很多,因此若满足不等式,||θ||可以比之前变小很多。

当时,,从图中可以看到,p^{(2)}(紫色)比(1)中的大很多,因此若满足不等式,||θ||可以比之前变小很多。

因此,能保证||θ||取值较小,满足我们的要求。

 

因为SVM试图极大化的范数(||   ||),即极大化训练样本到决策边界的距离,因此,SVM能够找出最大间距分类器。

 

附上一道练习题:

 

解答:

在本图中,X表示正样本,表示负样本。

在本题中,最优决策边界肯定是y轴,又θ是决策边界的法向量,因此θ向量和x轴重合(x轴的正方向即为θ向量的正方向),是指样本在θ向量上的投影,这个值和样本的x大小一致。

||θ||应该满足,因此只需要考虑支持向量,所谓支持向量便是离超平面最近的那个样本,这里考虑的是x=2(=2)的正样本,和x=-2(=-2)的负样本。因为只要满足这两个样本,对于x>2的正样本和x<-2的负样本,都能满足上述不等式。

(1)考虑正样本,x=2(=2)的,需要满足2*||θ||≥1,则||θ||≥1/2。

(2)考虑负样本,x=-2(=-2)的,需要满足(-2)*||θ||≤-1,则||θ||≥1/2。

因此,||θ||≥1/2,取||θ||=1/2;

(可以验证一下,x=3(=3)和x=-3(=-3)是否满足,x=3(=3)时,3*(1/2))>1;x=-3(=-3)时,(-3)*(1/2)<-1,因此满足不等式)。

注:

如果根据正负样本,一个求出||θ||≥2,一个求出||θ||≥3,则为了让所有样本满足不等式条件,需要取两者的交集,即||θ||≥3。

 

 

 

 

 

 

 

 

转载请注明原文地址: https://www.6miu.com/read-46681.html

最新回复(0)