局部线性回归(LWR): 原始版本的线性回归是: 1.使用参数θ进行拟合,让数据集中的值与拟合算出的值的差值平方(最小二乘法的思想) 2.输出θTX 相应的在LWR局部加权线性回归中: 1.使用参数θ进行拟合,让加权距离 w(i)(y(i) − θT x(i))^2最小; 2.输出 θTX。 上面式子中的w(i)是非负的权值,直观点说就是,如果对应某个 i 的权值w(i)特别大,那么在选择拟合参数θ的时候,就要尽量让这一点的(y(i) − θT x(i))2 最小。而如果权值w(i)特别小,那么这一点对应的(y(i) − θT x(i))2就基本在拟合过程中忽略掉了。 关于权值的选取可以使用下面这个标准公式:
其中X是要预测的特征,这样假设的道理是离X越近权重越大,越远影响越小。权值与高斯分布相似,但并没有任何关系,权值不是随机数。参数tow叫做带宽参数,他控制了权值降低的速度。 局部加权线性回归算法是非参数算法,无权重的线性回归算法是参数算法。
分类和逻辑回归 一般来说,回归不用在分类问题上,因为回归是连续性模型,而且受到噪声影响比较大。 逻辑回归本质上也是线性回归,只是在特征到结果的映射中加入了一层函数映射,即把特征线性求和,然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0和1上。 逻辑回归的假设函数h如下: 而线性回归假设函数知识θTX. 逻辑回归用来分类0/1问题,也就是预测结果是属于0或者1的二值分类问题。 这里假设二值满足伯努利分布,也就是: 当然也可以假设它满足泊松分布、指数分布等。
与线性回归一样,仍然是求最大似然估计,然后求导,θ迭代公式为:
牛顿法来解最大似然估计 线性回归和上式求解最大似然估计的方法是求导迭代,牛顿下降法可以使结果更快速的收敛。 牛顿法:假设我们有一个从实数到实数的函数f:R->R,然后找一个θ,来满足f(θ)=0,其中θ是一个实数。牛顿法就是通过对θ做出如下更新: 当应用求解最大似然估计的最大值时,变成求解l’(θ)=0的问题。那么迭代公式变成: 当θ是向量是,牛顿法可以用以下式子表示: 牛顿法收敛速度虽然很快,但求 Hessian 矩阵的逆的时候比较耗费时间。 当初始点 X0 靠近极小值 X 时,牛顿法的收敛速度是最快的。但是当 X0 远离极小值时,牛顿法可能不收敛,甚至连下降都保证不了。原因是迭代点 Xk+1 不一定是目标函数 f 在牛顿方向上的极小点。
广义线性模型 在逻辑回归时使用g(z)函数是由理论支撑的,这个理论便是广义线性模型。 如果一个概率分布可以表示为: 那么这个概率分布是属于指数族分布。伯努利分布,高斯分布,泊松分布,贝塔分布,狄特里特分布都属于指数分布。 上面的式子中,η叫做此分布的自然参数, T(y) 叫做充分统计量,我们目前用的这些分布中通常T (y) = y;而 a(η) 是一个对数分割函数。e−a(η)这个量本质上扮演了归一化常数的角色,也就是确保p(y; η)的总和等于1。 伯努利分布的概率可以表示成: 其中: 得到: 这就解释了逻辑回归为什么要使用这个函数作为假设函数。
广义线性模型的要点是: