hit2015spring晨凫追风
给定训练集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能的近,异类样例点尽可能的远,对新样本进行分类的时候,将新样本同样的投影,再根据投影得到的位置进行判断,这个新样本的类别 二分类: 给定数据集 D=(xi,yi)mi=1,yi∈0,1
Xi :第 i∈0,1 类的样本集合 μi :第 i∈0,1 类的均值向量 ∑i :第 i∈0,1 类的协方差矩阵
将数据投影在直线 w 上,则两类样本的中心点在直线上的投影分别为wTμ0和 wTμ1
将所有的样本点投影到直线上之后,两类样本的协方差为 wT∑0w 和 wT∑1w
由于直线是一维空间,因此 wTμ0 wTμ1 wT∑0w 和 wT∑1w 均为实数
为了把两类分的比较开于是有两个方面考虑 1、同类抱团更加紧密 2、不同类分的开
为了让同类的样本尽可能的接近,就让同类样本的投影点协方差尽可能的小, 于是有 wT∑0w+wT∑1w 让他们尽可能的小
为了两类分的开: 于是有了两类的投影中心尽可能的远离 ∥wTμ0−wTμ1∥22
要尽可能的大,这样就可以得到它的优化目标函数,使她最大就ok J=∥wTμ0−wTμ1∥22wT∑0w+wT∑1w
定义两个符号 类内散度矩阵: Sw=∑0+∑1=∑x∈1X0(x−μ0)(x−μ0)T+∑x∈1X1(x−μ0)(x−μ0)T 类间散度矩阵 Sb=(μ0−μ1)(μ0−μ1)T
于是得到了要优化的下式,最后需要优化的目标,使之最大化即可,求取 w
J=wTSbwwTSww