一、Logistic回归概念
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。实际中的logistic回归用途是极为广泛的,logistic回归几乎已经成了流行病学和医学中最常用的分析方法。
二、Logistic回归的推导过程
Logistic Regression来说,其思想是基于线性回归,其公式如下:
在这里
被称为sigmoid函数,Logistic Regression算法是将线性函数的结果映射到了sigmoid函数中。我们可以看到,sigmoid的函数输出是介于(0,1)之间的,它的图像如下图所示:
使用概率论中极大似然估计的方法去求解损失函数,首先得到概率函数为:
由于样本数据(m个)是独立的原因,所以它们的联合分布可以表示为各边际分布的乘积,取似然函数为:
对似然函数两边同时取对数得
在上述似然函数求最大值时,可以用梯度上升算法(在上一次的博客多元线性回归方程可以了解)
三、Logistic回归的应用
例如疾病诊断,通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是引起疾病的危险因素。同时根据该权值可以根据危险因素预测一个人的得疾病的可能性。