CS229——NODE1part2

xiaoxiao2021-02-28 82

局部线性回归（LWR）：原始版本的线性回归是： 1.使用参数θ进行拟合，让数据集中的值与拟合算出的值的差值平方（最小二乘法的思想） 2.输出θTX 相应的在LWR局部加权线性回归中： 1.使用参数θ进行拟合，让加权距离 w(i)(y(i) − θT x(i))^2最小； 2.输出 θTX。上面式子中的w(i)是非负的权值，直观点说就是，如果对应某个 i 的权值w(i)特别大，那么在选择拟合参数θ的时候，就要尽量让这一点的(y(i) − θT x(i))2 最小。而如果权值w(i)特别小，那么这一点对应的(y(i) − θT x(i))2就基本在拟合过程中忽略掉了。关于权值的选取可以使用下面这个标准公式：

其中X是要预测的特征，这样假设的道理是离X越近权重越大，越远影响越小。权值与高斯分布相似，但并没有任何关系，权值不是随机数。参数tow叫做带宽参数，他控制了权值降低的速度。局部加权线性回归算法是非参数算法，无权重的线性回归算法是参数算法。

分类和逻辑回归一般来说，回归不用在分类问题上，因为回归是连续性模型，而且受到噪声影响比较大。逻辑回归本质上也是线性回归，只是在特征到结果的映射中加入了一层函数映射，即把特征线性求和，然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0和1上。逻辑回归的假设函数h如下：而线性回归假设函数知识θTX. 逻辑回归用来分类0/1问题，也就是预测结果是属于0或者1的二值分类问题。这里假设二值满足伯努利分布，也就是：当然也可以假设它满足泊松分布、指数分布等。

与线性回归一样，仍然是求最大似然估计，然后求导，θ迭代公式为：

牛顿法来解最大似然估计线性回归和上式求解最大似然估计的方法是求导迭代，牛顿下降法可以使结果更快速的收敛。牛顿法：假设我们有一个从实数到实数的函数f:R->R,然后找一个θ，来满足f(θ)=0，其中θ是一个实数。牛顿法就是通过对θ做出如下更新：当应用求解最大似然估计的最大值时，变成求解l’(θ)=0的问题。那么迭代公式变成：当θ是向量是，牛顿法可以用以下式子表示：牛顿法收敛速度虽然很快，但求 Hessian 矩阵的逆的时候比较耗费时间。当初始点 X0 靠近极小值 X 时，牛顿法的收敛速度是最快的。但是当 X0 远离极小值时，牛顿法可能不收敛，甚至连下降都保证不了。原因是迭代点 Xk+1 不一定是目标函数 f 在牛顿方向上的极小点。

广义线性模型在逻辑回归时使用g(z)函数是由理论支撑的，这个理论便是广义线性模型。如果一个概率分布可以表示为：那么这个概率分布是属于指数族分布。伯努利分布，高斯分布，泊松分布，贝塔分布，狄特里特分布都属于指数分布。上面的式子中，η叫做此分布的自然参数， T(y) 叫做充分统计量，我们目前用的这些分布中通常T (y) = y；而 a(η) 是一个对数分割函数。e−a(η)这个量本质上扮演了归一化常数的角色，也就是确保p(y; η)的总和等于1。伯努利分布的概率可以表示成：其中：得到：这就解释了逻辑回归为什么要使用这个函数作为假设函数。

广义线性模型的要点是：

转载请注明原文地址: https://www.6miu.com/read-78934.html

技术

最新回复(0)