1. logistic分布
设 X X X 是连续随机变量, X X X 服从logistic分布是指 X X X 具有下列分布函数和密度函数: F ( x ) = P ( X ≤ x ) = 1 1 + e − ( x − μ ) / γ f ( x ) = F ′ ( x ) = e − ( x − μ ) / γ γ ( 1 + e − ( x − μ ) / γ ) 2 \begin{aligned}F(x)=P(X\le x)=\displaystyle\frac{1}{1+e^{-(x-\mu)/\gamma}} \\\\ f(x)=F^{'}(x)=\displaystyle\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2} \end{aligned} F(x)=P(X≤x)=1+e−(x−μ)/γ1f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ式中, μ \mu μ 为位置参数, γ > 0 \gamma\gt0 γ>0 为形状参数。其函数图像如下所示:

2. 二项logistic回归模型
二项logistic回归模型是如下的条件概率分布:
P
(
Y
=
1
∣
x
)
=
e
w
⋅
x
+
b
1
+
e
w
⋅
x
+
b
P
(
Y
=
0
∣
x
)
=
1
1
+
e
w
⋅
x
+
b
\begin{aligned} P(Y=1|x)=\displaystyle\Large\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}} \\\\ P(Y=0|x)=\displaystyle\Large\frac{1}{1+e^{w\cdot x+b}} \end{aligned}
P(Y=1∣x)=1+ew⋅x+bew⋅x+bP(Y=0∣x)=1+ew⋅x+b1这里,
x
∈
R
n
x\in\R^n
x∈Rn 是输入,
Y
∈
{
0
,
1
}
Y\in\{0,1\}
Y∈{0,1} 是输出,
w
∈
R
n
w\in\R^n
w∈Rn 和
b
∈
R
b\in\R
b∈R 是参数,
w
w
w 称为权值向量,
b
b
b 称为偏置,
w
⋅
x
w\cdot x
w⋅x 称为
w
w
w 和
x
x
x 的内积。
现再考察logistic回归模型的特点。一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p p p,那么该事件的几率是 p 1 − p \small\displaystyle\frac{p}{1-p} 1−pp,该事件的对数几率(log odds)或logit函数是: l o g i t ( p ) = ln p 1 − p logit(p)=\ln\frac{p}{1-p} logit(p)=ln1−pp对logistic回归而言,有 l o g i t ( p ) = ln P ( Y = 1 ∣ x ) 1 − P ( Y = 1 ∣ x ) = w ⋅ x + b logit(p)=\ln\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x+b logit(p)=ln1−P(Y=1∣x)P(Y=1∣x)=w⋅x+b这就是说,在logistic回归模型中,输出 Y = 1 Y=1 Y=1 的对数几率是输入 x x x 的线性函数。或者说,输出 Y = 1 Y=1 Y=1 的对数几率是由输入 x x x 的线性函数表示的模型,即logistic回归模型。
3. 模型参数估计
logistic回归模型学习时,对于给定的训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x N , y N ) } \displaystyle T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\} T={(x1,y1),(x2,y2),⋯,(xN,yN)},其中, x i ∈ R n , y i ∈ { 0 , 1 } x_i\in \R^n, y_i\in \{0,1\} xi∈Rn,yi∈{0,1},可以应用极大似然估计法估计模型参数,从而得到logistic回归模型。
设:
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)=\pi(x),\quad P(Y=0|x)=1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
其中,
π
(
x
)
=
e
w
⋅
x
+
b
1
+
e
w
⋅
x
+
b
\large\pi(x)=\displaystyle\frac{e^{w\cdot x+b}}{1+e^{w\cdot x+b}}
π(x)=1+ew⋅x+bew⋅x+b,则似然函数为
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\large\displaystyle\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
i=1∏N[π(xi)]yi[1−π(xi)]1−yi对数似然函数为
L
=
∑
i
=
1
N
[
y
i
ln
π
(
x
i
)
+
(
1
−
y
i
)
ln
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
ln
π
(
x
i
)
1
−
π
(
x
i
)
+
ln
(
1
−
π
(
x
i
)
)
]
=
∑
i
=
1
N
[
y
i
(
w
⋅
x
i
+
b
)
−
ln
(
1
+
e
w
⋅
x
i
+
b
)
]
\begin{aligned}\Large\displaystyle L=&\sum_{i=1}^N\bigg[y_i \ln\pi(x_i)+(1-y_i)\ln\Big(1-\pi(x_i)\Big)\bigg] \\\\ =&\sum_{i=1}^N\bigg[y_i \ln\frac{\pi(x_i)}{1-\pi(x_i)}+\ln\Big(1-\pi(x_i)\Big)\bigg]\\\\ =&\sum_{i=1}^N\Big[y_i (w\cdot x_i+b)-\ln(1+e^{w\cdot x_i+b})\Big] \end{aligned}
L===i=1∑N[yilnπ(xi)+(1−yi)ln(1−π(xi))]i=1∑N[yiln1−π(xi)π(xi)+ln(1−π(xi))]i=1∑N[yi(w⋅xi+b)−ln(1+ew⋅xi+b)]对
L
(
w
)
L(w)
L(w) 求极大值,即可得到
w
w
w的估计值,一般采用梯度下降法。