逻辑回归是个什么逻辑

本文介绍了逻辑回归的基本概念,包括其在分类问题中的应用及核心思想。通过鸢尾花数据集示例,详细阐述了逻辑回归模型构建、损失函数选择及求解方法,并提供了scikit-learn实现代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说到逻辑回归,可以先回顾下前期的文章《线性回归》。线性回归能够对连续值进行预测,如根据面积对房价进行预测。而在现实生活中,我们还有常见的另一类问题:分类问题。最简单的是二分类问题,即是与否的问题,如得病与否,交易是否合理,能否发放贷款,邮件是否垃圾邮件等。

逻辑回归(logistic regression),虽然名字上有“回归”两字,但它实际应用的是处理分类问题(classification)。它的核心思想是:如果回归的结果输出是一个连续值,而值的范围是无法限定的,那么想办法把这个连续结果值映射为可以帮助我们判断的结果值,从而进行分类。所以,从本质上讲,逻辑回归是在回归的基础上,进行了特殊的改进,而被用于分类问题上。

下面用一个最简单的例子来说明逻辑回归的使用过程。使用的是非常著名的IRIS数据集,也称为鸢尾花数据集。下载地址为:http://archive.ics.uci.edu/ml/。数据集包含150条数据,每条数据包含4个属性,分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),分为Setosa、Versicolour,Virginica这3个种类,每类50条数据。

这里写图片描述

由于这个数据集是三分类问题,为了简便起见,重在理解逻辑回归的原理,这里对数据集进行了裁剪,只选取Setosa、Versicolour这两个种类进行二分类。

下面分别从策略、模型、算法三个方面给出问题解决框架。
(1)模型
模型就是所有学习的条件概率分布或决策函数。在这个实例中,我们已知4个影响戈尾花分类的变量花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),令其分别为x1,x2,x3,x4。我们构建的模型认为是这4个变量的线性组合,于是得到:

z=θ0+θ1x1+θ2x2+θ3x3+θ4x4

这里我们构建的是一个线性回归模型,前面提到,逻辑回归需要将线性模型进行一下映射,从而能用于分类。这里的映射函数或者叫分类器叫做sigmoid函数。详细的介绍见前期文章《 sigmoid函数》。

通过sigmoid函数分类器,我们构建的逻辑回归模型是:

P(y=1|x;θ)=11+ez=11+e(θ0+θ1x1+θ2x2+θ3x3+θ4x4)=11+eθTx

(2)策略
在模型确定后,需要用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。常用的损失函数有以下几种:

1)0-1损失函数:

L(Y,f(X))={1,Yf(X)0,Y=f(X)

2)平方损失函数:
L(Y,f(X))=(Yf(X))2

3)绝对损失函数:
L(Y,f(X))=|Yf(X)|

4)对数损失函数或对数似然损失函数:
L(Y,P(Y|X))=logP(Y|X)

对于逻辑回归模型,使用的是 对数损失函数作为代价函数,至于为什么要选取这个损失函数,以后再说。则本例中,逻辑回归的损失函数为:
cost(y,p(y|x))={logp(y|x)ify=1log(1p(y|x))ify=0

将上面的两个表达式合并,则得到单个数据点上的log损失为:

cost(y,p(y|x))=ylogp(y|x)(1y)log(1p(y|x))

因为y只有两种取值情况,1或0,分别令y=1或y=0,即可得到原来的分段表达式,即两者是等价的。

全体样本的损失函数则可表达为:

cost(y,p(y|x))=i=1m(yilogp(yi|xi)(1yi)log(1p(yi|xi)))

其中 p(y|x) 由前面的逻辑回归模型定义,令:
p(y|x)=hθ(x)=11+eθTx

则最终的损失函数为:
cost(y,hθ(x))=i=1m(yilog11+eθTx(1yi)log(111+eθTx))

(3)算法
算法是指学习模型的具体计算方法。在上述模型和损失函数定义后,剩下的就是基于训练集 (xi,yi) 来求解模型中的参数 θ 。于是该问题变成了一个求解最优化问题。如果最优化问题有显式的解析解,这个最优化问题就比较简单。但通常解析解不存在,这就需要用数值计算的方法求解。如何保证找到全局最优解,并使得求解过程非常的高效,就成为一个重要问题。

对于该优化问题,存在多种求解方法,比较常用的有梯度下降法、牛顿法、共轭梯度法,还有启发式算法,如模拟退火、遗传算法、粒子群算法等。可以参考前期文章《梯度下降算法》。这里不再赘述。

(4)算例
这里直接使用scikit-learn机器学习包进行计算:

# -*- coding: utf-8 -*-

from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
# 构建训练集和测试集
iris_X_train = np.array(list(iris.data[:30]) + list(iris.data[50:80]))
iris_X_test = np.array(list(iris.data[30:50]) + list(iris.data[80:100]))
iris_Y_train = np.array(list(iris.target[:30]) + list(iris.target[50:80]))
iris_Y_test = np.array(list(iris.target[30:50]) + list(iris.target[80:100]))

from sklearn import linear_model
# 构建模型
logistic = linear_model.LogisticRegression()
# 拟合数据
logistic = logistic.fit(iris_X_train, iris_Y_train)
# 显示参数
print(logistic.coef_,logistic.intercept_)
# 预测测试数据
print(logistic.predict(iris_X_test))
# 输出原始数据
print(iris_Y_test)

输出结果为:
[[-0.32346426 -1.32886149 1.94671978 0.8778639 ]] [-0.23860313]
即各参数为:
θ0=0.23860313
θ1=0.32346426
θ1=1.32886149
θ3=1.94671978
θ4=0.8778639
最后逻辑回归的分类预测结果输出与测试集结果输出完全一致:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值