文章目录
GitHub
简书
优快云
在我们学习机器学习的过程中,我们所需解决的问题,大致可以分为两部分:分类和回归.其中,分类是指模型用来预测一个有限的离散值集合中的一个,比如猫狗分类,肿瘤的恶性或良性; 回归是指模型的输出是一个连续变量,比如预测房价、身高等.本篇内容讲解的是机器学习中经典的逻辑(斯谛)回归(Logistic Regression),从名字上看,大家误以为该方法是一种回归方法,其实不然,它是分类方法的一种,常用于二元分类,但是为什么会取名回归,我个人理解大致有如下几点原因:
1. 利用回归的思想来解决分类问题;
2. 它的输出也是一个连续值,通过设定阈值来实现分类
1. 逻辑斯谛分布
定义:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:
(1) F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − u ) / γ F(x)=P(X \leq x)=\frac{1}{1+e^{-(x-u)/\gamma}} \tag{1} F(x)=P(X≤x)=1+e−(x−u)/γ1(1)
(2) f ( x ) = F ′ ( x ) = e − ( x − μ ) γ γ ( 1 + e − ( x − u ) / γ ) 2 f(x)=F^{'}(x)=\frac{e^{-(x-\mu)\gamma}}{\gamma(1+e^{-(x-u)/\gamma})^2} \tag{2} f(x)=F′(x)=γ(1+e−(x−u)/γ)2e−(x−μ)γ(2)
其中, μ \mu μ为位置参数, γ > 0 \gamma > 0 γ>0为形状参数.
该函数以点 ( μ , 1 2 ) (\mu, \frac{1}{2}) (μ,21)为中对称,既有如下关系:
(3) F ( − x + μ ) = 1 − F ( x + μ ) F ( − x + μ ) − 1 2 = F ( x + μ ) + 1 2 \begin{aligned} F(-x+\mu) &= 1 - F(x+\mu)\\ F(-x+\mu)-\frac{1}{2} &= F(x + \mu) + \frac{1}{2} \end{aligned} \tag{3} F(−x+μ)F(−x+μ)−21=1−F(x+μ)=F(x+μ)+21(3)
形状参数 γ \gamma γ的值越小,曲线在中心附近增长的越快.该函数的图形如下图所示:
图一 逻辑斯谛分布的分布函数和密度函数
2 二元逻辑斯谛回归
二元逻辑斯谛回归模型是一种分类模型,有条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X)表示,X取值为实数,随机变量 Y 取值为 1或0;
逻辑斯谛回归模型的条件概率如下:
(4) p ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) = 1 1 + e x p ( − ( w ⋅ x + b ) ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( ( w ⋅ x + b ) ) \begin{aligned} p(Y=1|x)&=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}=\frac{1}{1+exp(-(w\cdot x+b))} \\ P(Y=0|x)&=\frac{1}{1+exp((w\cdot x+b))} \end{aligned} \tag{4} p(Y=1∣x)P(Y=0∣x)=1+exp(w⋅x+b)exp(w⋅x+b)=1+exp(−(w⋅x+b))1=1+exp((w⋅x+b))1(4)
这里, $ x \in R^n 表 示 样