逻辑回归是一个非常经典的算法,其中也包含了非常多的细节,曾看到一句话:如果面试官问你熟悉哪个机器学习模型,可以说 SVM,但千万别说 LR,因为细节真的太多了。
秉持着精益求精的工匠精神不断对笔记进行修改和改进,本着开源精神帮助大家一起学习。
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。
Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。
原理
如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概率作为方程的因变量估计值取值范围为0-1,但是,方程右边取值范围是无穷大或者无穷小。所以,才引入Logistic回归。Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。
Logistic 分布是由其位置和尺度参数定义的连续分布。Logistic 分布的形状与正态分布的形状相似,但是 Logistic 分布的尾部更长,所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在
的特殊形式。
求解
1. 梯度下降法
逻辑回归的公式为
其中:
则:
叫做预测函数,一般表示结果取1的概率,那么对于单条样本分类1和0的概率分别为:
可以整理成如下格式:
构造交叉熵损失函数(cost函数):
利用最大似然估计推导损失函数,最大似然估计就是利用已知的样本结果,反推能导致这样结果最大概率的一组参数值。举例:假设一个袋子中只装有未知数的黑球和白球,现在有放回的随机抽取球,做了一次测试,这次测试中抽取了10次,结果其中8次抽到了黑球,2次抽到了白球,假设抽到黑球的概率是p,那么抽到8次黑球和2次白球的概率为:,现在要求p是多少?
这里已经有了抽样10次,抽到了8次黑球,2次白球的样本结果,那么导致结果P最大概率下的p就是抽到黑球的概率。这里的思想就是最大