机器学习算法——逻辑回归

xiaoxiao2021-07-27 123

1. 逻辑回归简介2. 逻辑回归模型2.1 假设函数2.2 损失函数推导2.3 损失函数模型求解正则化方法L2正则化(ℓ2 -norm)L1正则化(ℓ1 -norm)[弹性网络](https://mp.weixin.qq.com/s/jjRM4B7OoClofrccUn5LFQ) 逻辑回归的优缺点优点缺点 sklearn.linear_model.LogisticRegression参数说明逻辑回归处理多分类问题OvO(One vs One)OvR(One vs Rest)MvM(Many vs Many) 类别不平衡问题参考文献

1. 逻辑回归简介

线性回归的模型是求出真实值Y和输入样本的特征X之间的线性关系系数 $\theta$ ,最终求得线性回归模型 $Y=X\theta$ .当给出新的特征时，我们希能够带入到 $Y=X\theta$ 中，求出预测值Y是连续值。归为回归模型。当Y是离散值时，我们就需要对线性回归模型的Y做一次函数变换，将连续值转换成离散值。这时我们就引入逻辑回归。逻辑回归（LogisticRegression）也叫对数几率回归。机器学习算法可以分为回归算法和分类算法，逻辑回归算法并不是回归算法，仅为在线性回归的基础上，套用了一个逻辑函数，用来解决分类问题，因此将它归为分类算法。

2. 逻辑回归模型

逻辑回归可以解决二分类问题，也可以解决多分类问题。这里先讲述二分类问题，多分类问题待补充。在逻辑回归（二分类)中，我们一般用sigmoid函数将连续值转换成离散值，实现二分类。为什么要用sigmoid函数作为假设函数

2.1 假设函数

用sigmoid函数作为假设函数

sigmoid函数形式如下：

$\tag{1}g(z)=\frac{1}{1+e^{-z}}$

sigmoid函数的导数形式如下： $\tag{2}g^{'}(z) = g(z)(1-g(z))=\frac{e^{-z}}{(1+e^{(-z)})^{2}}$

sigmoid函数图像：

sigmoid函数的性质： $x > 0$ 时， $y$ 趋于1； $x = 0$ 时， $y = 0.5$ ； $x < 0$ 时， $y$ 趋于0；

数据集 $\tag{3} Y=\begin{pmatrix} &y^1\\ &y^2\\ &\cdots\\ &y^i \end{pmatrix}$ $\begin{aligned} \tag{3}X=\begin{pmatrix} &x_1^1, &x_2^1, &x_3^1,&\cdots, &x_n^1 \\ &x_1^2, &x_2^2, &x_3^2,&\cdots &x_n^2 \\ &\cdots\\ &x_1^i, &x_2^i, &x_3^i,&\cdots &x_n^i \end{pmatrix} \end{aligned}$ $\begin{aligned} X_b= \begin{pmatrix} &1,&x_1^1, &x_2^1, &x_3^1,&\cdots, &x_n^1 \\ &1,&x_1^2, &x_2^2 &x_3^2,&\cdots &x_n^2 \\ &\cdots\\ &1,&x_1^i, &x_2^i, &x_3^i&\cdots &x_n^i \end{pmatrix} \end{aligned}$ $Y=X_b\theta$ 最终要求的模型参数 $\tag{4} \theta=\begin{pmatrix} &\theta_0 \\ &\theta_1\\ &\cdots\\ &\theta_n \end{pmatrix}$

${\theta_0为截距}$ 令 $z=\theta_0+\theta_1x_1+\theta_2x_2+\cdots +\theta_nx_n=X^i\theta$ 得：构造假设函数，假设数据服从伯努利分布：

$\tag{5}\hat p=h_{\theta}(x)=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-X^i\theta}}$ $\begin{cases} 1 & \hat p \geqslant0.5 , 即 X^i\theta\geqslant0 \\ 0 & \hat p<0.5, 即X^i\theta<0 \end{cases}$ $h_\theta(x)∈[0,1]$ ,假设 $h_{\theta}(x)$ 是样本 $x$ 为正例的可能性， $1-h_{\theta}(x)$ 是样本 $x$ 为反例的可能性

正例：( $y = 1$ )： $P(y=1|x；\theta)=h_{\theta}(x)=\frac{1}{1+e^{-X^i\theta}}$ 反例：( $y = 0$ )： $P(y=0|x；\theta)=1-h_{\theta}(x)=1-\frac{1}{1+e^{-X^i\theta}}$

两者的比值对数称为对数几率： $ln\frac{h_{\theta}(x)}{1-h_{\theta}(x)}$ 决策边界： $X^i\theta = 0.5$

如果X有两个特征则

\theta_0+\theta_1x_1+\theta_2x_2=0

x_2=\frac{-\theta_0-\theta_1x_1}{\theta_2}

2.2 损失函数推导

损失函数是基于极大似然估计得到的

将上述概率合并，得：

P(y|x;\theta) = [h_\theta(x)]^y[1-h_\theta(x)]^{1-y}

构造逻辑回归模型的似然函数为：

\tag{7}L(\theta)= \prod_{i=1}^{m}p(y=1|x_i)^{y^{(i)}}p(y=0|x_i)^{1-y^{(i)}}

l(\theta)

为样本的似然函数，有

\theta^{*}

使得

l(\theta)

的取值最大，那么

\theta^{*}

就叫做参数

\theta

的极大似然估计值对数似然函数：

\tag{8}l(\theta)=\sum_{i=1}^{m}[y^{(i)}lnp(y=1|x_i)+(1-y^{(i)})lnp(y=0|x_i)]

化简

l(\theta)=\sum_{i=1}^{m}[y^{(i)}lnh_{\theta}(x)+(1-y^{(i)})ln(1-h_{\theta}(x))]

令每个样本属于其真实标记的概率越大越好，

l(\theta)

是高阶连续可到的凸函数，

取对数的原因：根据前面你的似然函数公式，是一堆的数字相乘，这种算法求导会非常麻烦，而取对数是一种很方便的手段，由于ln对数属于单调递增函数，因此不会改变极值点，由于对数的计算法则： $lna^b=blna,lnab=lna+lnb$ ,这样求导就很方便了。

2.3 损失函数

求最大似然函数，就是损失函数（对似然函数先取负号）最小化。所以加个负号就成了损失函数；最小化损失函数可以梯度下降法求解。除以样本数m —— 数量越多误差越大，所以平滑一下 $\tag{9} \begin{aligned} &J(\theta)=-\frac{1}{m}l(\theta)\\ &=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}lnh_{\theta}(x)+(1-y^{(i)})ln(1-h_{\theta}(x))]\\ &=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(\hat p)+(1-y^{(i)})log(1-\hat p)] \end{aligned}$

模型求解

模型求解的过程实际上就是求损失函数最小时的参数 $\theta$ ,求解的方法有梯度下降法，坐标轴下降法，牛顿法等，这里用梯度下降法推导！！！

对损失函数求导

\tag{10}\triangledown J(\theta)=\begin{pmatrix} \frac{\partial J(\theta)}{\partial \theta_0}\\ \frac{\partial J(\theta)}{\partial \theta_1}\\ \cdots\\ \frac{\partial J(\theta)}{\partial \theta_n}\\ \end{pmatrix}

对

\hat {p}

求导

\tag{10}\hat {p}^{'}=h_{\theta}^{'}(x) = \frac{e^{-X^i\theta}}{(1+e^{(-X^i\theta)})^{2}}

对log[h_\theta(x^i)]求导

\tag{12}\begin{aligned} &log[h_\theta(x^i)]^{'}\\ &=\frac {1}{ h_\theta(x^i)}·h_\theta(x^i)^{'}\\ &= (1+e^{-X^i\theta})(1+e^{-X^i\theta})^{-2}·e^{-X^i\theta}\\ &=(1+e^{-X^i\theta})^{-1}·e^{-X^i\theta}\\ &=\frac{e^{-X^i\theta}}{1+e^{-X^i\theta}}\\ &=1-\frac{1}{1+e^{-X^i\theta}}\\ &=1-h_\theta(x^i) \end{aligned}

对log[1-h_\theta(x^i)]求导

\tag{13}\begin{aligned} &log[1-h_\theta(x^i)]^{'}\\ &=\frac{1}{1-h_\theta(x^i)}·(-1)·h_\theta(x^i)^{'}\\ &=-\frac{1+e^{-x^i}}{e^{-x^i}}·(1+e^{-x^i})^{-2}·e^{-x^i}\\ &=-h_\theta(x^i)\\ &\end{aligned}

对

(1-y^{(i)})log[1-h_\theta(x^i)]

求导

\tag {14} \begin{aligned} &\frac{d[(1-y^{(i)})log(1-h_\theta(x^i)]}{d\theta_j}\\ &= (1-y^{(i)})·(-h_\theta(x^i))·X_j^{(i)} \end{aligned}

对

y^{(i)}log(h_\theta(x^i))]

求导

\tag {15} \begin{aligned} &\frac{d[y^{(i)}log(h_\theta(x^i))]}{d\theta_j}\\ &=y^{(i)}(1-h_\theta(x^i))·X_j^{(i)} \end{aligned}

最终求化简结果 $\begin{aligned}\tag{16} &\frac{J(\theta)}{\theta_j}=-\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^i)-y^{(i)})X_j^{(i)}\\ &=-\frac{1}{m}\sum_{i=1}^{m}(\hat y^{(i)}-y^{(i)})X_j^{(i)} \end{aligned}$

梯度下降法中的更新公式： $\tag {18}\theta_j=\theta_j- \frac{\alpha}{m}\sum_{i=1}^{m}(\hat y^{(i)}-y^{(i)})X_j^{(i)}$

$1,2,3,\cdots,m$

$j=1,2,3,\cdots,n$

$\alpha为学习率$

正则化方法

为防止模型过拟合，提高模型的泛化能力，通常会在损失函数的后面添加一个正则化项。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓【惩罚】是指对损失函数中的某些参数做一些限制

L2正则化(ℓ2 -norm)

使用L2正则化的模型叫做Ridge Regularization（岭回归）,直接在原来的损失函数基础上加上权重参数的平方和：令损失函数为 $J_0$ ，则Ridge Regularization为： $\tag{5}J=J_0+\frac{1}{2}\eta \sum_{i=1}^{n}\theta^2$ 使最终的损失函数最小，要考虑 $J_0$ 和 $\tag{6}L_2=\frac{1}{2}\eta \sum_{i=1}^{n} \theta^2$ 两个因素，最终的损失函数就是求等高圆圈+黑色圆圈的和的最小值。由图可知两个圆相交时， $J$ 取得最小值。

为什么 $L_2$ 正则化项能够防止过拟合的情况？对损失函数的参数优化求解过程进行分析 $\tag{7}\frac{\partial J}{\partial \theta}=\frac{\partial J_0}{\partial \theta}+\alpha \theta$

$\tag{8}\frac{\partial J}{\partial b}=\frac{\partial J}{\partial b}$ 可以发现L2正则化项对b的更新没有影响，但是对于 $\theta$ 的更新有影响: $\theta \rightarrow \theta - \eta\sum_{i=1}^{m} \frac{\partial J_i}{\partial \theta}-\eta \alpha \theta$

$\tag{9}=(1-\eta \alpha )\theta - \eta \sum_{i=1}^{m}\frac{\partial J_i}{\partial \theta}$

在不使用L2正则化时，求导结果中 $\theta$ 前系数为1，现在 $\theta$ 前面系数为 $1−η\alpha$ ，因为η、 $\alpha$ 都是正的，所以 $1−η\alpha$ 小于1，它的效果是减小 $\theta$ ，这也就是权重衰减（weight decay）的由来。

在岭回归中，规范化项是所有系数的平方和，称为L2-norm（L2范数）。在我们的模型中就是试图最小化RSS+λ(sumβj^2)。当λ增加时，系数会缩小，趋向于0但永远不会为0。岭回归的优点是可以提高预测准确度，但因为它不能使任何一个特征的系数为0，所以在模型解释性上会有些问题。为了解决这个问题，我们使用LASSO回归。

L1正则化(ℓ1 -norm)

使用L1正则化的模型建叫做Lasso Regularization(Lasso回归),直接在原来的损失函数基础上加上权重参数的绝对值， $\eta$ 为正则化参数：假设损失函数为 $\tag{1}J_0=\sum_{i=1}^{m}(y^{(i)}-\theta_0-\theta_1x_1-\theta_2x_2-\cdots-\theta_nx_n)$ 则Lasso Regularization为： $\tag{2}J=J_0+\eta \sum_{i=1}^{m}|\theta|$ $J$ 是带有绝对值符号的函数，因此 $J$ 是不完全可微的。当我们在原始损失函数 $J_0$ 后添加 $L_1$ 正则化项时，相当于对 $J_0$ 做了一个约束。令 $L_1=\eta\sum_{i=1}^{m}|\theta|$ ，则 $J=J_0+L_1$ ，此时我们的任务变成在 $L$ 约束下求出 $J$ 取最小值时的 $\theta$ 。 $\eta$ 被称为正则化系数.

下面通过图像来说明如何在约束条件 $L_1$ 下求 $J$ 的最小值。最终的损失函数就是求等高圆圈+黑色黑色矩形的和的最小值。由图可知等高圆圈+黑色矩形首次相交时， $J$ 取得最小值。为什么 $L_1$ 正则化项能够防止过拟合的情况？对损失函数的参数优化求解过程进行分析 $\tag{3}\frac{\partial J}{\partial \theta}=\frac{\partial J_0}{\partial \theta}+\alpha sgn(\theta)$

上式中 $sgn(\theta)$ 表示 $\theta$ 的符号。那么权重 $\theta$ 的更新规则为: $\tag{4}\theta \rightarrow \theta - \eta\sum_{i=1}^{m} \frac{\partial J_i}{\partial \theta}-\eta \alpha sgn(\theta)$

比原始的更新规则多出了 $\alpha sgn(\theta)$ 这一项。当 $\theta$ 为正时，更新后的 $\theta$ 变小。当 $\theta$ 为负时，更新后的 $\theta$ 变大——因此它的效果就是让 $\eta$ 往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合。

区别于岭回归中的L2-norm，LASSO回归使用L1-norm，即所有特征权重的绝对值之和，也就是要最小化RSS+λ(sum|βj|)。这个收缩惩罚项确实可以使特征权重收缩到0，相对于岭回归，这是一个明显的优势，因为可以极大地提高模型的解释性。如果LASSO这么好，那还要岭回归做什么？当存在高度共线性或高度两两相关的情况下，LASSO回归可能会将某个预测特征强制删除，这会损失模型的预测能力。举例来说，如果特征A和B都应该存在于模型之中，那么LASSO可能会将其中一个的系数缩减到0。可见岭回归与Lasso回归应该是互为补充的关系。

弹性网络

弹性网络的优势在于，它既能做到岭回归不能做的特征提取，又能实现LASSO不能做的特征分组。重申一下，LASSO倾向于在一组相关的特征中选择一个，忽略其他。弹性网络包含了一个混合参数α，它和λ同时起作用。α是一个0和1之间的数，λ和前面一样，用来调节惩罚项的大小。请注意，当α等于0时，弹性网络等价于岭回归；当α等于1时，弹性网络等价于LASSO。实质上，我们通过对β系数的二次项引入一个第二调优参数，将L1惩罚项和L2惩罚项混合在一起。通过最小化（RSS + λ[(1 - α)(sum|βj|^2)/2 + α(sum|βj|)]/N）完成目标。

逻辑回归的优缺点

优点

1、它是直接对分类可能性建模，无需事先假设数据分布，这样就避免了假设分布不准确问题。

2、它不仅预测类别，而且可以得到近似概率预测，这对许多概率辅助决策的任务很有用。

3、对率函数是任意阶可导凸函数，有很好的数学性质，现有许多的数值优化算法都可以直接用于求解。

缺点

对数据和场景的适应能力有局限性，不如决策树算法适应性那么强

sklearn.linear_model.LogisticRegression参数说明

官方英文文档

参数解释数值类型(默认值)选项penalty正则化选择参数。‘newton-cg’，‘sag’和’lbfgs’解算器只支持l2惩罚。版本0.19中的新功能：使用SAGA求解器的l1惩罚（允许’多项’+ L1）str (l1)‘l1’或’l2’，dual对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候，dual通常设置为False。bool (False)Ture/Falsesolversolver参数决定了我们对逻辑回归损失函数的优化方法str(liblinear)newton-cg;lbfgs;liblinear;sag;saga。multi_classmulti_class参数决定了我们分类方式的选择str(ovr)ovr;multinomialclass_weight用于标示分类模型中各种类型的权重，可以是一个字典或者’balanced’字符串，默认为不输入，也就是不考虑权重，即为None。如果选择输入的话，可以选择balanced让类库自己计算类型权重，或者自己输入各个类型的权重。举个例子，比如对于0,1的二元模型，我们可以定义class_weight={0:0.9,1:0.1}，这样类型0的权重为90%，而类型1的权重为10%。如果class_weight选择balanced，那么类库会根据训练样本量来计算权重。某种类型样本量越多，则权重越低，样本量越少，则权重越高。当class_weight为balanced时，类权重计算方法如下：n_samples / (n_classes * np.bincount(y))。n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,1,1],则np.bincount(y)=[2,3]。dict/str字典或者’balanced’字符串tol停止求解的标准Float(1e-4)c正则化系统λ的倒数Float(1.0)verbose日志冗长度int(0)warm_start热启动参数,如果为True，则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）。bool(False)Flase/Turen_jobs并行数,用CPU的一个内核运行程序，2的时候，用CPU的2个内核运行程序。为-1的时候，用所有CPU的内核运行程序。int(1)max_iter算法收敛最大迭代次数,仅在正则化优化算法为newton-cg, sag和lbfgs才有用，算法收敛的最大迭代次数。int(10)random_state随机数种子,仅在正则化优化算法为sag,liblinear时有用。Int(无)fit_intercept是否存在截距或偏差bool(Ture)False/Ture

具体参数详解

逻辑回归处理多分类问题

OvO(One vs One)

假设训练集有N类样本， $C_1,C_2,\cdots,C_N$ 训练时两两组合为二分类进行训练，新样本通过这 $C_N^{2}$ 个分类器后会得到 $\frac {N(N−1)}{2}$ 个分类结果，最终结果可根据这些分类结果投票产生。

OvR(One vs Rest)

训练时一个类作为正例，其余所有类作为反例。这样共有 $N$ 个二分类器进行训练，新样本通过分类器时预测结果为正例的即为最终结果。

MvM(Many vs Many)

MvM是每次将若干各类作为正例，剩下的若干个类作为反例，OvO和OvR其实是MvM的特殊情况。但是MvM的正反例构造必须有特殊的设计，不能随意选取。这里我们介绍一种最常用的MvM技术：“纠错输出码”（ECOC）

类别不平衡问题

逻辑回归面经

参考文献

逻辑回归原理小结 scikit-learn 逻辑回归类库使用小结 Logistic Regression（逻辑回归）原理及公式推导机器学习算法–逻辑回归原理介绍正则化方法

转载请注明原文地址: https://www.6miu.com/read-4823375.html

Java

最新回复(0)