一、logistic分布
- 逻辑斯蒂分布分布函数:
F ( x ) = P ( X < = x ) = 1 1 + e − ( x − μ ) / γ F(x)=P(X<=x)=\frac{1}{1+e^{-(x-\mu)/\gamma}} F(x)=P(X<=x)=1+e−(x−μ)/γ1
-
逻辑斯蒂分布密度函数:
f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ -
其中, μ \mu μ为位置参数, γ > 0 \gamma>0 γ>0为形状参数
-
-
分布函数F(x)属于逻辑斯蒂函数,图像是S型曲线,以 ( μ , 1 / 2 ) (\mu,1/2) (μ,1/2)中心对称。曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数 γ \gamma γ越小,曲线在中心附近增长得越快。
二、二项逻辑斯蒂回归模型
模型简介
-
分类模型,由条件概率分布P(Y|X)表示
-
随机变量X取值为实数,随机变量Y取值为0或1
-
条件概率分布:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x + b ) 1 + e x p ( w ⋅ x + b ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x + b ) P(Y=1|x)=\frac{exp(w·x+b)}{1+exp(w·x+b)} \\P(Y=0|x)=\frac{1}{1+exp(w·x+b)} P(Y=1∣x)=1+exp(w⋅x+b)exp(w⋅x+b)P(Y=0∣x)=1+exp(w⋅x+b)1 -
逻辑斯蒂回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类
-
为了方便,将权值向量加以扩充,使 w = ( w ( 1 ) , w ( 2 ) , . . . w ( n ) , b ) T ; x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) , 1 ) T w=(w^{(1)},w^{(2)},...w^{(n)},b)^T;x=(x^{(1)},x^{(2)},...,x^{(n)},1)^T w=(w(1),w(2),...w(n),b)T;x=(x(1),x(2),...,x(n),1)T
-
那么逻辑斯蒂回归模型就变成:
P ( Y = 1 ∣ x ) = e x p ( w ⋅ x ) 1 + e x p ( w ⋅ x ) P ( Y = 0 ∣ x ) = 1 1 + e x p ( w ⋅ x ) P(Y=1|x)=\frac{exp(w·x)}{1+exp(w·x)} \\P(Y=0|x)=\frac{1}{1+exp(w·x)} P(Y=1∣x)=1+exp(w⋅x)exp(w⋅x)P(Y=0∣x)=1+exp(w⋅x)1 -
线性函数 w ⋅ x w·x w⋅x越接近正无穷,概率值就越接近1;线性函数越接近负无穷,概率值就越接近0
-
P ( Y = 1 ∣ x ) = 1 1 + e x p ( − w ⋅ x ) P(Y=1|x)=\frac{1}{1+exp(-w·x)} P(Y=1∣x)=1+exp(−w⋅x)1
-
上式可以看出逻辑回归就是在线性回归基础上加了个sigmoid函数( f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+e−x1)
-
事件的几率:事件发生的概率和事件不发生的概率的比值, p 1 − p \frac{p}{1-p} 1−pp
-
事件的对数几率/logit函数: l o g i t ( p ) = l o g p 1 − p logit(p)=log\frac{p}{1-p} logit(p)=log1−pp
-
对于逻辑斯蒂回归: l o g P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w·x log1−P(Y=1∣x)P(Y=1∣x)=w⋅x。说明:在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数
模型参数估计
-
极大似然法求w:
设:
P ( Y = 1 ∣ x ) = π ( x ) , P ( Y = 0 ∣ x ) = 1 − π ( x ) P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x) P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数为:
∏ i = 1 N [ π ( x i ) ] y i [ 1 − π ( x i ) ] 1 − y i \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i} i=1∏N[π(xi)]yi[1−π(xi)]1−yi
对数似然函数为:
L ( w ) = ∑ i = 1 N [ y i l o g π ( x i ) + ( 1 − y i ) l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i l o g π ( x i ) 1 − π ( x i ) + l o g ( 1 − π ( x i ) ) ] = ∑ i = 1 N [ y i ( w ⋅ x i ) − l o g ( 1 + e x p ( w ⋅ x i ) ) ] L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))] \\=\sum_{i=1}^N[y_i(w·x_i)-log(1+exp(w·x_i))] L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值这样问题就变成:以对数似然函数为目标函数的最优化问题
常用方法:梯度下降法&拟牛顿法
-
为什么不用平方误差(MSE)作为损失函数?
逻辑回归引入softmax,使输出值与模型参数之间的关系不再是线性关系。此时如果选择与线性回归一样的平方损失函数,就会导致损失函数可能非凸,对于非凸函数进行梯度下降法会导致陷入局部最优情况。
三、多项逻辑斯蒂回归模型
-
假设离散型Y取值集合为 { 1 , 2 , . . , K } \{1,2,..,K\} {1,2,..,K},那么多项逻辑斯蒂回归模型是:
P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) 1 + ∑ j = 1 K − 1 e x p ( w j ⋅ x ) , k = 1 , 2 , . . . , K − 1 P ( Y = K ∣ x ) = 1 ∑ j = 1 K − 1 e x p ( w j ⋅ x ) P(Y=k|x)=\frac{exp(w_k·x)}{1+\sum_{j=1}^{K-1}exp(w_j·x)},k=1,2,...,K-1 \\P(Y=K|x)=\frac{1}{\sum_{j=1}^{K-1}exp(w_j·x)} P(Y=k∣x)=1+∑j=1K−1exp(wj⋅x)exp(wk⋅x),k=1,2,...,K−1P(Y=K∣x)=∑j=1K−1exp(wj⋅x)1 -
可以令j=1时的 e x p ( w K ⋅ x ) = 1 exp(w_K·x)=1 exp(wK⋅x)=1将两式合并成softmax形式:
P ( Y = k ∣ x ) = e x p ( w k ⋅ x ) ∑ j = 1 K e x p ( w j ⋅ x ) P(Y=k|x)=\frac{exp(w_k·x)}{\sum_{j=1}^Kexp(w_j·x)} P(Y=k∣x)=∑j=1Kexp(wj⋅x)exp(wk⋅x)