说到逻辑回归,可以先回顾下前期的文章《线性回归》。线性回归能够对连续值进行预测,如根据面积对房价进行预测。而在现实生活中,我们还有常见的另一类问题:分类问题。最简单的是二分类问题,即是与否的问题,如得病与否,交易是否合理,能否发放贷款,邮件是否垃圾邮件等。
逻辑回归(logistic regression),虽然名字上有“回归”两字,但它实际应用的是处理分类问题(classification)。它的核心思想是:如果回归的结果输出是一个连续值,而值的范围是无法限定的,那么想办法把这个连续结果值映射为可以帮助我们判断的结果值,从而进行分类。所以,从本质上讲,逻辑回归是在回归的基础上,进行了特殊的改进,而被用于分类问题上。
下面用一个最简单的例子来说明逻辑回归的使用过程。使用的是非常著名的IRIS数据集,也称为鸢尾花数据集。下载地址为:http://archive.ics.uci.edu/ml/。数据集包含150条数据,每条数据包含4个属性,分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),分为Setosa、Versicolour,Virginica这3个种类,每类50条数据。
由于这个数据集是三分类问题,为了简便起见,重在理解逻辑回归的原理,这里对数据集进行了裁剪,只选取Setosa、Versicolour这两个种类进行二分类。
下面分别从策略、模型、算法三个方面给出问题解决框架。
(1)模型
模型就是所有学习的条件概率分布或决策函数。在这个实例中,我们已知4个影响戈尾花分类的变量花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),令其分别为x1,x2,x3,x4。我们构建的模型认为是这4个变量的线性组合,于是得到:
这里我们构建的是一个线性回归模型,前面提到,逻辑回归需要将线性模型进行一下映射,从而能用于分类。这里的映射函数或者叫分类器叫做sigmoid函数。详细的介绍见前期文章《 sigmoid函数》。
通过sigmoid函数分类器,我们构建的逻辑回归模型是:
(2)策略
在模型确定后,需要用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。常用的损失函数有以下几种:
1)0-1损失函数:
2)平方损失函数:
3)绝对损失函数:
4)对数损失函数或对数似然损失函数:
对于逻辑回归模型,使用的是 对数损失函数作为代价函数,至于为什么要选取这个损失函数,以后再说。则本例中,逻辑回归的损失函数为:
将上面的两个表达式合并,则得到单个数据点上的log损失为:
因为y只有两种取值情况,1或0,分别令y=1或y=0,即可得到原来的分段表达式,即两者是等价的。
全体样本的损失函数则可表达为:
其中 p(y|x) 由前面的逻辑回归模型定义,令:
则最终的损失函数为:
(3)算法
算法是指学习模型的具体计算方法。在上述模型和损失函数定义后,剩下的就是基于训练集 (xi,yi) 来求解模型中的参数 θ 。于是该问题变成了一个求解最优化问题。如果最优化问题有显式的解析解,这个最优化问题就比较简单。但通常解析解不存在,这就需要用数值计算的方法求解。如何保证找到全局最优解,并使得求解过程非常的高效,就成为一个重要问题。
对于该优化问题,存在多种求解方法,比较常用的有梯度下降法、牛顿法、共轭梯度法,还有启发式算法,如模拟退火、遗传算法、粒子群算法等。可以参考前期文章《梯度下降算法》。这里不再赘述。
(4)算例
这里直接使用scikit-learn机器学习包进行计算:
# -*- coding: utf-8 -*-
from sklearn import datasets
import numpy as np
iris = datasets.load_iris()
# 构建训练集和测试集
iris_X_train = np.array(list(iris.data[:30]) + list(iris.data[50:80]))
iris_X_test = np.array(list(iris.data[30:50]) + list(iris.data[80:100]))
iris_Y_train = np.array(list(iris.target[:30]) + list(iris.target[50:80]))
iris_Y_test = np.array(list(iris.target[30:50]) + list(iris.target[80:100]))
from sklearn import linear_model
# 构建模型
logistic = linear_model.LogisticRegression()
# 拟合数据
logistic = logistic.fit(iris_X_train, iris_Y_train)
# 显示参数
print(logistic.coef_,logistic.intercept_)
# 预测测试数据
print(logistic.predict(iris_X_test))
# 输出原始数据
print(iris_Y_test)
输出结果为:
[[-0.32346426 -1.32886149 1.94671978 0.8778639 ]] [-0.23860313]
即各参数为:
θ0=−0.23860313
θ1=−0.32346426
θ1=−1.32886149
θ3=1.94671978
θ4=0.8778639
最后逻辑回归的分类预测结果输出与测试集结果输出完全一致:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]