hθ(x)=g(θTx)=11+e−θTx
hθ(x)=1if θTx≥0hθ(x)=0if θTx<0
1m∑i=1m[y(i)(−loghθ(x(i)))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθ2j
C∑i=1m[y(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))]+12∑j=1nθ2j 其中 cost1,cost0 的图像( θTx 即 z ):
由图像可知,为使Cost函数最小,需要: y=1时,尽量使 θTx≥1 y=0 时,尽量使 θTx≤−1
给定训练样本 (x(1),y(1)),(x(2),y(2)),...,(x(m),y(m)) 令 l(1)=x(1),l(2)=x(2),...,l(m)=x(m)
对任一 x ,有: f1=similarity(x,l(1))f2=similarity(x,l(2))⋮fm=similarity(x,l(m)) 即用Kernel函数表示 x 与l的相似程度。一般常将高斯函数用作Kernal函数 (Gaussian Kernel): f(x)=ae−(x−b)22c2
由此可得特征向量 (Feature Vector): f=⎡⎣⎢⎢⎢⎢⎢⎢⎢f0f1f2⋮fm⎤⎦⎥⎥⎥⎥⎥⎥⎥ 类似 x0 , f0=1
即实现了原特征向量的如下映射: X∈Rn+1→f∈Rm+1
y=1if θTf≥0y=0if θTf<0
C∑i=1m[y(i)cost1(θTf(i))+(1−y(i))cost0(θTf(i))]+12∑j=1nθ2j