机器学习理论笔记(3)

xiaoxiao2021-02-28  50

统计决策理论

squared error loss L2 L 2

Let XRp,YR X ∈ R p , Y ∈ R Joint distribution,联合分布: Pr(X,Y) P r ( X , Y ) 我们希望找到一个函数 f(X) f ( X ) ,对于给定的 X X 来预测YY。首先我们需要一个loss function 损失函数 L(Y,f(X)) L ( Y , f ( X ) ) 来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

L(Y,f(X))=(Yf(X))2(3.1) (3.1) L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 标准型: EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)(3)(4) (3) E P E ( f ) = E ( Y − f ( X ) ) 2 (4) = ∫ [ y − f ( x ) ] 2 P r ( d x , d y ) X X 条件下的条件预测误差: EPE(f)=EXEY|X([Yf(X)]2|X)(3.2)(3.2)EPE(f)=EXEY|X([Y−f(X)]2|X) 这里期望表示积分,先固定 x x yy进行积分,然后再对 x x 进行积分。 我们逐点最小化EPEEPE,就可以得到: f(x)=argmincEY|X([Yc]2|X=x)(3.3) (3.3) f ( x ) = a r g m i n c E Y | X ( [ Y − c ] 2 | X = x ) 它的解是: f(x)=E(Y|X=x)(3.4) (3.4) f ( x ) = E ( Y | X = x ) 所以这里在条件 X=x X = x 的均值可以最好的预测 Y Y 。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均,那么就有最近邻方法: f^(x)=Ave(yi|xiNk(x))(3.5)(3.5)f^(x)=Ave(yi|xi∈Nk(x)) 现在再看线性回归拟合 线性回归拟合,显然它是 f(x) f ( x ) 的一个线性近似 f(x)xTβ(3.6) (3.6) f ( x ) ≈ x T β 把此式子代入 EPE E P E 就可以得到 β=[E(XXT)]1E(XY)(3.7) (3.7) β = [ E ( X X T ) ] − 1 E ( X Y ) 最后我们是用数据的训练集来代入计算的。 我们可以得出结论:

最小二乘法是假设函数 f(X) f ( X ) 近似于线性函数

k k -最近邻方法是假设函数f(x)f(x)近似于一个局部常值函 现在我们假设:

f(X)=j=1pfj(Xj)(3.8) (3.8) f ( X ) = ∑ j = 1 p f j ( X j ) 任意的 fj f j 的选择可以包含以上两种方法。

绝对损失函数 L1 L 1

损失函数 L1=E|Yf(X)| L 1 = E | Y − f ( X ) | ,那么条件中值median

f^(x)=median(Y|X=x)(3.9) (3.9) f ^ ( x ) = m e d i a n ( Y | X = x )

0-1损失函数 L L

假设output GG是一个分类变量categorical variable, G^ G ^ G G 中的一个估计值(一组可能的类),损失函数可以表示成一个 K×K K × K 矩阵 L L ,这里K=card(G)K=card(G) G G 中类的个数。 L L 是一个对角线为0,其他位置非负的矩阵,L(k,l)L(k,l)表示 Gl G l 类观测分类到 Gk G k 类所需的代价。(也就是说这种分类错误会导致损失函数增加多少。)这里可以把 G G 看成前面的YY G^(X) G ^ ( X ) 可以看成前面的 f(X) f ( X ) g g 相当于前面的cc。那么,0-1损失函数的预测误差期望是: EPE=E[L(G,G^(X))](3.10) (3.10) E P E = E [ L ( G , G ^ ( X ) ) ] 写成添加联合分布的条件概率形式就是: EPE=EXk=1KL[Gk,G^(X)]Pr(Gk|X)(3.11) (3.11) E P E = E X ∑ k = 1 K L [ G k , G ^ ( X ) ] P r ( G k | X ) 逐点极小化 EPE E P E 就是 G^(x)=argmingGk=1KL(Gk,g)Pr(Gk|X=x)(3.12) (3.12) G ^ ( x ) = a r g m i n g ∈ G ∑ k = 1 K L ( G k , g ) P r ( G k | X = x ) 用0-1损失函数这个简化这个模型,也就是说 g g 等于某个Gk0Gk0,那么 L(Gk0,g)=0 L ( G k 0 , g ) = 0 ,对剩下的部分求和就得到下式: G^(x)=argmingG[1Pr(Gk|X=x)](3.13) (3.13) G ^ ( x ) = a r g m i n g ∈ G [ 1 − P r ( G k | X = x ) ] 简单写就是 G^(x)=Gk if Pr(Gk|X=x)=maxgGPr(g|X=x)(3.14) (3.14) G ^ ( x ) = G k  if  P r ( G k | X = x ) = max g ∈ G P r ( g | X = x ) 这就是贝叶斯分类器Bayes classifier。

转载请注明原文地址: https://www.6miu.com/read-2624412.html

最新回复(0)