斯坦福大学公开课机器学习课程(Andrew Ng)四牛顿方法与广义线性模型

xiaoxiao2021-02-28  109

本次课所讲主要内容:

1、  牛顿方法:对Logistic模型进行拟合

2、 指数分布族

3、  广义线性模型(GLM):联系Logistic回归和最小二乘模型

一、牛顿方法

       牛顿方法与梯度下降法的功能一样,都是对解空间进行搜索的方法。

假设有函数,需要找使=0

步骤:

1)       给出一个的初始值

2)        在作 的切线,延长该切线与x轴交于一点

3)          令x轴交点处为新的,重复步骤二。

如下图所示:

因为过切线的斜率等于高/底,即切线的斜率便等于的导数,高为,底便等于的导数除以 ,即每次更新的变化量为的导数除以 。

所以更新规则为: 

牛顿方法在机器学习中的应用

对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取值最大时,其导数为0,这样就和上面函数f取0的问题一致了。

极大似然函数的求解更新规则为:

牛顿方法的收敛速度:二次收敛

每次迭代使解的有效数字的数目加倍:假设当前误差是0.1,一次迭代后,误差为0.001,再一次迭代,误差为0.0000001。该性质当解距离最优质的足够近才会发现。

上面是当参数为实数时,进一步推广,当参数为向量时,更新规则如下:

HHessian矩阵,后面的是目标函数的梯度。H的规模是n*nn为参数向量的长度,它的每个元素表示一个二阶导数,计算公式如下:

牛顿方法的优缺点:

优点:若特征数和样本数合理,牛顿方法的迭代次数比梯度上升要少得多

缺点:每次迭代都要重新计算Hessian矩阵,如果特征很多,则H矩阵计算代价很大

二、指数分布族

指数分布族是指可以表示为指数形式的概率分布。指数分布的形式如下:

η - 自然参数,通常是一个实数

T(y) – 充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)

当a、b、T都给定时,上式定义了一个以η为参数的函数族。

下面我们将伯努利分布与高斯分布转换为指数分布族的形式。

伯努利分布

伯努利分布是对0,1进行建模,它的形式如下:

对其进行如下转换:

有公式(7),对比公式(5),我们就可以分别得到公式(5)中各参数,如下:

由上式可以发现所对应的函数和上一篇中所提到的logistic函数一致(很奇妙的感觉~~)。之所以出现这种情况,是因为logistic函数模型对问题的前置概率估计是伯努利分布的缘故。

高斯分布

     高斯分布的形式为。有高斯分布可以推导出线性模型,由线性模型的假设函数可知,高斯分布的方差与假设函数无关,所以为了简便计算,我们将方差设为1,。

高斯分布转换为指数分布的推导过程如下:

有公式(8)可知,高斯分布转换为指数分布族的参数分别为:

三、广义线性模型

      定义了指数分布族之后有什么用呢?我们可以通过指数分布族引出广义线性模型(generalized linear model, GLM)。

在统计学上,广义线性模型是一种受到广泛应用的线性回归模式。此模式假设实验者所量测的随机变数的分布函数与实验中系统性效应(即非随机的效应)可经由一链接函数(link function)建立起可资解释其相关性的函数。

注意到上述公式7与公式8的变量,在公式7中变量与伯努利分布中的参数的关系是logistic函数,在通过推到可以得到logisti回归;在公式8中,与正态分布的参数u的关系是限等,我们可以推导出最小二乘模型(OLS)。通过这两个例子,可以猜想,以不同的映射函数与其他概率分布函数中的成员发生联系,从而得到不同的模型,广义线性模型正是将指数分布族中的所有成员(每个成员正好有一个这样的联系)都做为线性模型的拓展,通过各种非线性的连接函数将线性函数映射到其他空间从而大大扩大了线性模型可解决的问题。

广义线性模型有三个假设:

(1),即假设试图预测的变量y在给定x,以θ作为参数的条件概率,属于以η作为自然参数的指数分布族

例:若要统计网站点击量y,用泊松分布建模

(2) 给定x,目标是求出以x为条件的T(y)的期望E[T(y)|x],即让学习算法输出h(x) = E[T(y)|x]

(3),即自然参数和输入特征x之间线性相关,关系由θ决定。仅当η是实数时才有意义。若η是一个向量,

依据这三个假设,可以推导出logistic模型与最小二乘模型

logistic模型的推导如下:

在这个式子中,第一行是伯努利分布的性质,第二行有假设二和假设三得出。

最小二乘模型的推导如下:

正则响应函数:g(η) = E[y;η],将自然参数η和原始概率分布中的参数联系起来的函数

正则关联函数:g-1

总结:广义线性模型通过假设一个概率分布,得到不同模型,例如当选取高斯分布时,就可以得到最小二乘模型,当选取伯努利分布时就得到logistic模型,而梯度下降、牛顿方法都是为了求取使所建立模型有最优解的未知参数

参考:

斯坦福ML公开课笔记

http://blog.csdn.net/maverick1990/article/details/12564973

转载请注明原文地址: https://www.6miu.com/read-43136.html

最新回复(0)