逻辑回归是个什么逻辑

最新推荐文章于 2024-01-08 01:31:41 发布

saltriver

最新推荐文章于 2024-01-08 01:31:41 发布

阅读量8.8k

点赞数 7

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：逻辑回归机器学习

本文链接：https://blog.youkuaiyun.com/saltriver/article/details/63681339

机器学习专栏收录该内容

22 篇文章

订阅专栏

本文介绍了逻辑回归的基本概念，包括其在分类问题中的应用及核心思想。通过鸢尾花数据集示例，详细阐述了逻辑回归模型构建、损失函数选择及求解方法，并提供了scikit-learn实现代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说到逻辑回归，可以先回顾下前期的文章《线性回归》。线性回归能够对连续值进行预测，如根据面积对房价进行预测。而在现实生活中，我们还有常见的另一类问题：分类问题。最简单的是二分类问题，即是与否的问题，如得病与否，交易是否合理，能否发放贷款，邮件是否垃圾邮件等。

逻辑回归（logistic regression），虽然名字上有“回归”两字，但它实际应用的是处理分类问题（classification）。它的核心思想是：如果回归的结果输出是一个连续值，而值的范围是无法限定的，那么想办法把这个连续结果值映射为可以帮助我们判断的结果值，从而进行分类。所以，从本质上讲，逻辑回归是在回归的基础上，进行了特殊的改进，而被用于分类问题上。

下面用一个最简单的例子来说明逻辑回归的使用过程。使用的是非常著名的IRIS数据集，也称为鸢尾花数据集。下载地址为：http://archive.ics.uci.edu/ml/。数据集包含150条数据，每条数据包含4个属性，分别是花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）、花瓣宽度（petal width），分为Setosa、Versicolour，Virginica这3个种类，每类50条数据。

这里写图片描述

由于这个数据集是三分类问题，为了简便起见，重在理解逻辑回归的原理，这里对数据集进行了裁剪，只选取Setosa、Versicolour这两个种类进行二分类。

下面分别从策略、模型、算法三个方面给出问题解决框架。
（1）模型
模型就是所有学习的条件概率分布或决策函数。在这个实例中，我们已知4个影响戈尾花分类的变量花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）、花瓣宽度（petal width），令其分别为x1,x2,x3,x4。我们构建的模型认为是这4个变量的线性组合，于是得到：

z = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4

$z = {\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}{x_3} + {\theta _4}{x_4}$
这里我们构建的是一个线性回归模型，前面提到，逻辑回归需要将线性模型进行一下映射，从而能用于分类。这里的映射函数或者叫分类器叫做sigmoid函数。详细的介绍见前期文章《 sigmoid函数》。

通过sigmoid函数分类器，我们构建的逻辑回归模型是：

P (y = 1 | x; θ) = 1 1 + e - z = 1 1 + e - ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 + θ 4 x 4 ) = 1 1 + e - θ T x

$P(y = 1|x;\theta ) = \frac{1}{{1 + {e^{ - z}}}} = \frac{1}{{1 + {e^{ - ({\theta _0} + {\theta _1}{x_1} + {\theta _2}{x_2} + {\theta _3}{x_3} + {\theta _4}{x_4})}}}} = \frac {1} {1 + e^{ - \theta ^Tx}}$

（2）策略
在模型确定后，需要用一个损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。常用的损失函数有以下几种：

1）0-1损失函数：

L (Y, f (X)) = {1, Y \neq f (X) 0, Y = f (X)

$L(Y,f(X)) = \left\{ \begin{array}{l} 1,Y \ne f(X)\\ 0,Y = f(X) \end{array} \right.$
2）平方损失函数:

L (Y, f (X)) = (Y - f (X)) 2

$L(Y,f(X)) = {(Y - f(X))^2}$
3）绝对损失函数:

L (Y, f (X)) = | Y - f (X) |

$L(Y,f(X)) = |Y - f(X)|$
4）对数损失函数或对数似然损失函数：

L (Y, P (Y | X)) = - log P (Y | X)

$L(Y,P(Y|X)) = - \log P(Y|X)$
对于逻辑回归模型，使用的是 对数损失函数作为代价函数，至于为什么要选取这个损失函数，以后再说。则本例中，逻辑回归的损失函数为：

cos t (y, p (y | x)) = {- log p (y | x) i f y = 1 - log (1 - p (y | x)) i f y = 0

$\cos t(y,p(y|x)) = \left\{ \begin{array}{l} - \log p(y|x){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} if{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} y = 1\\ - \log (1 - p(y|x)){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} if{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} y = 0 \end{array} \right.$

将上面的两个表达式合并，则得到单个数据点上的log损失为：

cos t (y, p (y | x)) = - y log p (y | x) - (1 - y) log (1 - p (y | x))

$\cos t(y,p(y|x)) = - y\log p(y|x) - (1 - y)\log (1 - p(y|x))$
因为y只有两种取值情况，1或0，分别令y=1或y=0，即可得到原来的分段表达式，即两者是等价的。

全体样本的损失函数则可表达为：

cos t (y, p (y | x)) = \sum i = 1 m (- y i log p (y i | x i) - (1 - y i) log (1 - p (y i | x i)))

$\cos t(y,p(y|x)) = \sum\limits_{i = 1}^m {( - {y_i}\log p({y_i}|{x_i}) - (1 - {y_i})\log (1 - p({y_i}|{x_i}))} )$
其中

p(y|x) $p(y|x)$ 由前面的逻辑回归模型定义，令：

p (y | x) = h θ (x) = 1 1 + e - θ T x

$p(y|x) = {h_\theta }(x) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}}$
则最终的损失函数为：

cos t (y, h θ (x)) = \sum i = 1 m (- y i log 1 1 + e - θ T x - (1 - y i) log (1 - 1 1 + e - θ T x))

$\cos t(y,{h_\theta }(x)) = \sum\limits_{i = 1}^m {( - {y_i}\log \frac{1}{{1 + {e^{ - {\theta ^T}x}}}} - (1 - {y_i})\log (1 - \frac{1}{{1 + {e^{ - {\theta ^T}x}}}})} )$
（3）算法
算法是指学习模型的具体计算方法。在上述模型和损失函数定义后，剩下的就是基于训练集

(xi,yi) $({x_i},{y_i})$ 来求解模型中的参数

θ $\theta$ 。于是该问题变成了一个求解最优化问题。如果最优化问题有显式的解析解，这个最优化问题就比较简单。但通常解析解不存在，这就需要用数值计算的方法求解。如何保证找到全局最优解，并使得求解过程非常的高效，就成为一个重要问题。

对于该优化问题，存在多种求解方法，比较常用的有梯度下降法、牛顿法、共轭梯度法，还有启发式算法，如模拟退火、遗传算法、粒子群算法等。可以参考前期文章《梯度下降算法》。这里不再赘述。

（4）算例
这里直接使用scikit-learn机器学习包进行计算：

# -*- coding: utf-8 -*-

from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
# 构建训练集和测试集
iris_X_train = np.array(list(iris.data[:30]) + list(iris.data[50:80]))
iris_X_test = np.array(list(iris.data[30:50]) + list(iris.data[80:100]))
iris_Y_train = np.array(list(iris.target[:30]) + list(iris.target[50:80]))
iris_Y_test = np.array(list(iris.target[30:50]) + list(iris.target[80:100]))

from sklearn import linear_model
# 构建模型
logistic = linear_model.LogisticRegression()
# 拟合数据
logistic = logistic.fit(iris_X_train, iris_Y_train)
# 显示参数
print(logistic.coef_,logistic.intercept_)
# 预测测试数据
print(logistic.predict(iris_X_test))
# 输出原始数据
print(iris_Y_test)

输出结果为：
[[-0.32346426 -1.32886149 1.94671978 0.8778639 ]] [-0.23860313]
即各参数为：
${\theta _0} =-0.23860313$
${\theta _1} =-0.32346426$
${\theta _1} =-1.32886149$
${\theta _3} =1.94671978$
${\theta _4} =0.8778639$
最后逻辑回归的分类预测结果输出与测试集结果输出完全一致:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]