python机器学习（五）逻辑回归、决策边界、代价函数、梯度下降法实现线性和非线性逻辑回归

原创已于 2025-03-30 23:05:58 修改 · 2.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #逻辑回归

于 2023-07-26 16:09:24 首次发布

python机器学习专栏收录该内容

7 篇文章

订阅专栏

线性回归用于连续值预测，但不适于分类问题，因为预测值可能不连续。逻辑回归虽然名字含“回归”，实则是解决二分类问题的算法，通过sigmoid函数将预测值映射到0和1之间。逻辑回归的决策边界可以通过调整模型参数θ来确定，对于非线性可分数据，可通过多项式特征增加模型复杂度。代价函数在逻辑回归中采用交叉熵，确保了凸函数性质，利于梯度下降法求解全局最优解。

线性回归所解决的问题是把数据集的特征传入到模型中，预测一个值使得误差最小，预测值无限接近于真实值。比如把房子的其他特征传入到模型中，预测出房价，房价是一系列连续的数值，线性回归解决的是有监督的学习。有很多场景预测出来的结果不一定是连续的，我们要解决的问题并不是一直类似于房价的问题。

分类问题

预测是红细胞还是白细胞，红细胞和白细胞是两个完全不同的类别。预测的时候首先要有历史数据，训练出模型，然后对模型进行反复的评估后得到理想的模型，然后把新的数据传入到模型中，进行一系列的预测，得到是红细胞(0)，或者白细胞(1)，这是最简单的二分类的问题。
在这里插入图片描述
如果用线性回归解决分类问题， $y = 0$ 为红细胞， $y = 1$ 为白细胞，数据集的呈现情况如下图所示，此时需要找到一条线，把二者分开，用线性回归去做的话，一要考虑代价函数最小(误差最小)，二要将数据最好的分开。要将红白细胞分开的话，在线上取一个值(0.5)，若 $h (x) >= 0.5$ 的话，得到的点在上方，预测的结果为1；如果 $h (x) < 0.5$ 的话，得到的点在下方，预测的结果为0。
在这里插入图片描述
如果数据中多了一个样本点，如下图所示，拟合线的求解应该是代价函数最小，拟合线会出现往右侧拓展的情况，为图中蓝色的线，如果 $h (x) = 0.5$ 的话，会出现在A区域的点不是完全为1的。也就是说当数据中出现了一个异常的样本点的时候，用线性回归模型解决问题的时候，就会让我们整体的预测都发生变化，这时就要引入逻辑回归算法。
在这里插入图片描述

逻辑回归

逻辑回归算法是当今最流行以及使用最广泛的算法之一。虽然它的名字中含有回归二字，但实际上是用来解决分类问题的。常用的场景：数据挖掘；疾病自动诊断；经济预测领域，还有垃圾邮件分类等。逻辑回归在深度学习中也是比较重要的，它是个比较经典的算法，它的很多原理被用在深度学习、神经网络中。

逻辑回归的实现

预测函数： $h(x)=θ^TX$ ，预测值会远远大于1，或远远小于0，就无法做分类，目标：将 $h (x)$ 进行收敛到0和1之间， $0 <= h (x) 0 <= 1$ 。
实现：使用 $s i g m o i d (L o g i s t i c)$ 函数， $g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}$ 。当 $z$ 趋向于 $+ \infty$ ， $e^{-z}$ 趋向于0， $g (z)$ 就无限趋向于1；当 $z$ 趋向于 $- \infty$ ， $e^{-z}$ 趋向于 $+ \infty$ ， $g (z)$ 就无限趋向于0。
在这里插入图片描述

把 $h (x)$ 代入到 $g (z)$ 中去，得到 $g(θTX)=11+e−θTXg(θ^TX)=\frac{1}{1+e^{-θ^TX}}$ ,可以将 $g(θ^TX)$ 映射到0和1之间。
在这里插入图片描述
当 $θ^TX>=0$ 的时候， $g(θ^TX)>=0.5$ ，趋近于1；
当 $θ^TX<0$ 的时候， $g(θ^TX)<0.5$ ，趋近于0。公式还可以写为 $h(x)=11+e−θTXh(x)=\frac{1}{1+e^{-θ^TX}}$ 。
将一组数据训练出来模型，将新的数据代入到模型中，得到预测的结果，结果不可能刚好是0或者1，也可能在0和1之间，若得到的结果 $h (x) = 0.7$ ，可以预测有70%的几率为白细胞(1)，为红细胞(0)的概率为30%。为其中一种的概率： $h (x) = P (y = 1∣ x; θ)$ ，在 $y = 1$ 的条件下 $x$ 的概率；两者之间的概率和： $P (y = 1∣ x; θ) + P (y = 0∣ x; θ) = 1$ 。

总结
$h (x)$ 使用 $g(θ^TX)$ 收敛到0和1之间。
$h(x)=g(θ^TX)=P(y=1|x;θ)$ ， $g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}$ ，
当 $θ^TX>0,h(x)>=0.5$ ，则预测 $y = 1$ ；
当 $θ^TX<0,h(x)<0.5$ ，则预测 $y = 0$

决策边界

帮助我们更好的理解逻辑回归，理解函数表达的内涵， $x_1$ ， $x_2$ 分布代表特征，得到 $h(x)=g(θ_0+θ_1x_1+θ_2x_2)$ ，后半部分相当于 $θ^TX$ 。
如下图所示，假设 $θ_0=-3，θ_1=1，θ_2=1$ ，得到 $θ^TX=-3+x_1+x_2$ ，如果 $3+x_1+x_2>=0$ ，意味着 $h (x) >= 0.5$ ，值更加接近于1，则 $y = 1$ 划分为1的可能性比较大；如果 $3+x_1+x_2<0$ ，意味着 $h (x) < 0.5$ ，值更加接近于0，则 $y = 0$ 划分为0的可能性比较大。根据表达式画线，将 $- 3$ 移到等号的右边，当 $x_1=0$ 时， $x_2=3$ ；当 $x_2=0$ 时， $x_1=3$ ，两点之间画线，在线上方是 $x_1+x_2>=3$ 的部分，类别预测为1，同理可得，在线下方，类别预测为0。
在这里插入图片描述

在下图中，用叉号表示正样本，用圈表示负样本，此时不能用一条直线将二者进行划分了，在之前线性回归的时候，如果数据不能用一条直线拟合，用多项式回归，添加一些高阶的式子。在逻辑回归的时候，也可以使用相同的方法。
$h(x)=g(θ_0+θ_1x_1+θ_2x_2+θ_3x_1^2+θ_4x_2^2)$ ，其中 $θ_0+θ_1x_1+θ_2x_2+θ_3x_1^2+θ_4x_2^2$ 相当于 $θ^TX$ 。
如下图所示，假设 $θ_0=-1，θ_1=0，θ_2=0，θ_3=1，θ_4=1$ ，代入公式后得到 $θ^TX=-1+x_1^2+x_2^2$ ，若 $1+x_1^2+x_2^2>=0$ ，则可以得到 $θ^TX=x_1^2+x_2^2>=1$ ， $h (x)$ 的值大于0.5，类别划分为1，否则类别划分为0。 $x_1^2+x_2^2=1$ 是以原点为圆心，半径为1的标准圆，也即是决策边界，在圆外部的点是要大于半径的，属于类别为1的，反之在圆内部的点是小于半径的，属于类别为0的。决策边界是通过 $θ$ 来确定的， $h(x)=11+e−θTXh(x)=\frac{1}{1+e^{-θ^TX}}$ ，1和e都是常数，X为数据样本集(特征)，只有 $θ$ 是个参数，只要确定了 $θ$ 也就确定了决策边界 $h (x)$ ，也就可以预测边界 $h (x)$ 的值。
在这里插入图片描述
求解 $θ$ 值，跟线性回归有类似之处，求 $θ$ 是基于代价函数的，使得代价函数最小，求得 $θ$ 值。

代价函数

凸函数只有1个全局最优解，非凸函数求最优解的时候，很有可能陷入到局部最优解中，而不是全局最小值。非凸函数无法通过梯度下降法取得全局最小值。
在这里插入图片描述
线性回归所定义的代价函数为： $\frac{1}{2m}\displaystyle{\sum_{i=1}^{m}(h(x^i)-y^i)^2}$ ，真实值减去预测值的平方求和，然后除以特征的个数，也就是均方误差，此时 $h(x^i)=θ_0+θ_1x^i$ ，如果把代价函数运用到逻辑回归当中，此时 $h(x^i)$ 不再是简单的线性回归关系，而是 $h(x)=11+e−θTXh(x)=\frac{1}{1+e^{-θ^TX}}$ ，把等号后面的内容整体代入到代价函数中去，图形就会变成非凸函数，不便于求全局最小值。
目标：找到一个不同的代价函数，能使得 $J (θ)$ 变为凸函数。
实现：使用对数去掉指数化带来的影响，转化为线性关系，用对数把指数对冲掉。 $2^n=4$ ，可以转换为 $log_24=n$ ，求得 $n = 2$ 。
解决方法：转为凸函数，如果为一元，直接求二阶导，若大于等于零，则为凸函数；如果为多元的，借助hessian矩阵来解决，涉及到正定性。
作用：凸函数的局部最优解就是全局最优解。

当 $y = 1$ 时，代价函数 $Cost(h(x),y)=-log_e(h(x))$
$C os t$ 为当前样本预测的损失。P为概率， $y = 1$ 的概率。
当 $y = 1$ 时， $h (x)$ 要接近于1才能使得代价函数最小， $y$ 为真实值，类别为1， $h (x) = P (y = 1∣ x; θ)$ 为预测值为1的概率，概率越大就意味着越接近于结果 $y = 1$ 。如果 $h (x) = 1$ 是最好的效果， $Cost=-log_e(h(x))=0$ ，意味着损失最小，代价函数为0；
如果 $h (x) = 0$ ， $h (x) = P (y = 1∣ x; θ)$ 为预测值为1的概率为0， $Cost(h(x),y)=-log_e(h(x))$ 为无穷大，损失值非常大。
当 $y = 0$ 时，代价函数 $Cost(h(x),y)=-log_e(1-h(x))$
当 $y = 0$ 时， $h (x)$ 为1， $Cost(h(x),y)=-log_e(1-h(x))$ 预测值为1的概率为0， $l o g (1 - h (x))$ 为无穷大；反之 $h (x)$ 为0，趋向于 $y = 0$ 的类别， $log_e1=0$ ，损失最小。

注意：对于逻辑回归来说，不需要区分预测概率类别。当 $h (x) = P >= 0.5$ ，划分为1这个类别，趋近于1；当 $h (x) = P < 0.5$ ，划分到0这个类别，趋近于0。
以上两个代价函数是个分段的，求解 $θ$ 值时要解决实际的问题，而 $y = 0 或 1$ ，可以简化方程式来求代价函数，把以上两个式子整合成一个，方便后期的求导。 $Cost(h(x),y)=-ylog_e(h(x))-(1-y)log_e(1-h(x))$

$C os t (h (x), y)$ 为一个样本数据的损失，每个样本点都有损失，要将很多个样本点进行整合，进行求和除以样本的个数，将负号提出来，得到以下的式子，这种方式也为交叉熵。
$\frac{1}{m}\displaystyle{\sum_{i=1}^{m}Cost(h(x),y)}=-\frac{1}{m}\displaystyle{\sum_{i=1}^{m}[ylog_e(h(x))+(1-y)log_e(1-h(x))]}$
逻辑回归是很常用的算法，也用于深度学习中。这个方程式运用了统计学中的极大自然法，为不同的模型快速找出参数，同时也是个凸函数，解决了之前非凸函数的问题，便于接下来的求导。

梯度下降法推导

代价函数：
$=-\frac{1}{m}\displaystyle{\sum_{i=1}^{m}[ylog_e(h(x))+(1-y)log_e(1-h(x))]}$
目标：求 $θ$ ，使得代价函数 $J (θ)$ 最小。
换元法， $z=θ^TX$ ,对 $g (z)$ 的求导就变为了对 $11+e−z\frac{1}{1+e^{-z}}$ 进行求导， $1+e^{-z}$ 求导，就变为了 $e^{-z}$ 导数乘以 $- z$ 的导数，对 $z=θ^TX$ 求导，X为常数， $θ^T$ 为变量，求导后为 $x$

在这里插入图片描述

代价函数求导之后的结果为：

梯度下降法的本质是通过不停的求导，迭代曲线下降的方向，是凸优化的问题，通过求导决定曲线下降的速度和方向，最快的达到最低点，损失最小的过程
$logex=lnx=1xlog_ex=lnx=\frac{1}{x}$

梯度下降法实现线性逻辑回归

在这里插入图片描述

sklearn实现线性逻辑回归

逻辑回归API

sklearn.linear_model.LogisticRegression(solver='liblinear',penalty='l2',C=1.0,
solver 可选参数：{'liblinear','sag','saga','newton-cg','lbfgs'}
penalty：正则化的种类
C：正则化力度

liblinear为默认值，是优化问题的算法，适用于小数据集；sag，saga用于大型数据集，newton-cg用于多类的问题。
数据中有正例和反例，sklearn接口默认将数量少的作为正例。
在这里插入图片描述

梯度下降法实现非线性逻辑回归

分类评估报告API

sklearn.metrics.classification_report(y_true,y_pred,labels=[],target_names=None)
y_true：真实目标值
y_pred：估计器预测目标值
labels：指定类别对应的数字
target_names：目标类别名称
return：每个类别精确率与召回率