机器学习理论笔记（3）

xiaoxiao2021-02-28 50

统计决策理论

squared error loss L2

Let X∈Rp,Y∈R Joint distribution，联合分布: Pr(X,Y) 我们希望找到一个函数 f(X) ，对于给定的 X 来预测 $Y$ 。首先我们需要一个loss function 损失函数 L(Y,f(X)) 来惩罚预测误差。目前为止最常用最方便的损失函数是squared error loss:

L(Y,f(X))=(Y−f(X))2(3.1) (3.1) L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 标准型：

EPE(f)=E(Y−f(X))2=∫[y−f(x)]2Pr(dx,dy)(3)(4) (3) E P E ( f ) = E ( Y − f ( X ) ) 2 (4) = ∫ [ y − f ( x ) ] 2 P r ( d x , d y ) 在

X X 条件下的条件预测误差：

E P E (f) = E X E Y | X ([Y - f (X)] 2 | X) (3.2)

这里期望表示积分，先固定

x x 对

y

进行积分，然后再对

x x 进行积分。我们逐点最小化

E P E

，就可以得到：

f(x)=argmincEY|X([Y−c]2|X=x)(3.3) (3.3) f ( x ) = a r g m i n c E Y | X ( [ Y − c ] 2 | X = x ) 它的解是：

f(x)=E(Y|X=x)(3.4) (3.4) f ( x ) = E ( Y | X = x ) 所以这里在条件

X=x X = x 的均值可以最好的预测

Y Y 。最好的度量是平均平方误差。

可以认为期望就是一些取样点的平均，那么就有最近邻方法： $f^(x) = A v e (y i | x i \in N k (x)) (3.5)$ 现在再看线性回归拟合线性回归拟合，显然它是 f(x) 的一个线性近似 f(x)≈xTβ(3.6) 把此式子代入 EPE 就可以得到 β=[E(XXT)]−1E(XY)(3.7) 最后我们是用数据的训练集来代入计算的。我们可以得出结论：

最小二乘法是假设函数

f(X) f ( X ) 近似于线性函数

k -最近邻方法是假设函数 $f (x)$ 近似于一个局部常值函现在我们假设：

f(X)=∑j=1pfj(Xj)(3.8) (3.8) f ( X ) = ∑ j = 1 p f j ( X j ) 任意的

fj f j 的选择可以包含以上两种方法。

绝对损失函数 L1

损失函数 L1=E|Y−f(X)| ，那么条件中值median

f^(x)=median(Y|X=x)(3.9) (3.9) f ^ ( x ) = m e d i a n ( Y | X = x )

0-1损失函数 L

假设output $G$ 是一个分类变量categorical variable， G^ 是 G 中的一个估计值（一组可能的类），损失函数可以表示成一个 K×K 矩阵 L ，这里 $K = c a r d (G)$ ， G 中类的个数。 L 是一个对角线为0，其他位置非负的矩阵， $L (k, l)$ 表示 Gl 类观测分类到 Gk 类所需的代价。（也就是说这种分类错误会导致损失函数增加多少。）这里可以把 G 看成前面的 $Y$ ， G^(X) 可以看成前面的 f(X) ， g 相当于前面的 $c$ 。那么，0-1损失函数的预测误差期望是： EPE=E[L(G,G^(X))](3.10) 写成添加联合分布的条件概率形式就是： EPE=EX∑k=1KL[Gk,G^(X)]Pr(Gk|X)(3.11) 逐点极小化 EPE 就是 G^(x)=argming∈G∑k=1KL(Gk,g)Pr(Gk|X=x)(3.12) 用0-1损失函数这个简化这个模型，也就是说 g 等于某个 $G k 0$ ，那么 L(Gk0,g)=0 ，对剩下的部分求和就得到下式： G^(x)=argming∈G[1−Pr(Gk|X=x)](3.13) 简单写就是 G^(x)=Gk if Pr(Gk|X=x)=maxg∈GPr(g|X=x)(3.14) 这就是贝叶斯分类器Bayes classifier。

转载请注明原文地址: https://www.6miu.com/read-2624412.html

技术

最新回复(0)

机器学习理论笔记（3）

统计决策理论

squared error loss L2 L 2

绝对损失函数 L1 L 1

0-1损失函数 L L

技术

squared error loss L2

绝对损失函数 L1

0-1损失函数 L