1.logistic函数的推导
2.广义线性模型
若
y
y
y非线性,如果有函数
g
g
g,使得
g
(
y
)
=
x
⃗
⋅
β
⃗
+
α
g(y)=\vec x \cdot \vec \beta + \alpha
g(y)=x⋅β+α,则称之为广义的线性模型。
若
y
=
F
(
x
)
=
1
1
+
e
−
x
y=F(x)=\frac{1}{1+e^{-x}}
y=F(x)=1+e−x1(逻辑斯谛分布又称为激活函数sigmoid,关于点(0,0.5)对称),所以它是一个分布函数,对它求导就是概率密度函数,求反函数
x
=
−
log
(
1
y
−
1
)
x=-\log(\frac{1}{y}-1)
x=−log(y1−1),即:
g
(
y
)
=
log
(
y
1
−
y
)
g(y)=\log (\frac{y}{1-y})
g(y)=log(1−yy),进一步:
log
(
y
1
−
y
)
=
x
⃗
⋅
β
⃗
+
α
\log(\frac{y}{1-y})=\vec x \cdot \vec \beta +\alpha
log(1−yy)=x⋅β+α,最后:
y
=
e
x
⃗
⋅
β
⃗
+
α
1
+
e
x
⃗
⋅
β
⃗
+
α
y=\frac{e^{\vec x \cdot \vec \beta + \alpha}}{1+e^{\vec x \cdot \vec \beta + \alpha}}
y=1+ex⋅β+αex⋅β+α
3.逻辑斯谛回归特点
- 该模型的输入和输出存在非线性的关系。
- 该模型的输入可以是连续的也可以是离散的。如分段函数,logistic函数将分段函数变成了连续函数
- 该模型的参数估计用最大似然估计。
4.参数估计
最早假设它是二项分布: P ( Y ) = { 1 − p , Y = 0 p , Y = 1 = ( 1 − p ) 1 − Y p Y P(Y)=\begin{cases}1-p,&Y=0 \\ p,&Y=1\end{cases}=(1-p)^{1-Y}p^Y P(Y)={1−p,p,Y=0Y=1=(1−p)1−YpY
P
(
Y
=
y
i
∣
x
i
)
=
(
1
−
p
i
)
1
−
y
i
p
i
y
i
P(Y=y_i| x_i)=(1-p_i)^{1-y_i}p_i^{y_i}
P(Y=yi∣xi)=(1−pi)1−yipiyi,其中
p
i
=
e
w
x
i
1
+
e
w
x
i
p_i=\frac{e^{wx_i}}{1+e^{wx_i}}
pi=1+ewxiewxi,
所以对于
n
n
n个样本
{
(
x
1
,
y
1
)
,
⋯
,
(
x
n
,
y
n
)
}
\{(x_1,y_1),\cdots,(x_n,y_n)\}
{(x1,y1),⋯,(xn,yn)},同时发生的可能性为
∏
i
=
1
n
(
1
−
p
i
)
1
−
y
i
p
y
i
=
L
(
w
)
\prod_{i=1}^n(1-p_i)^{1-y_i}p^{y_i}=L(w)
∏i=1n(1−pi)1−yipyi=L(w)
将乘法变成加减,
log
∏
i
=
1
n
[
(
1
−
p
i
)
1
−
y
i
p
i
y
i
]
=
∑
i
=
1
n
[
y
i
log
p
i
+
(
1
−
y
i
)
log
(
1
−
p
i
)
]
=
∑
i
=
1
n
[
y
i
log
p
i
1
−
p
i
+
log
(
1
−
p
i
)
]
\begin{aligned}\log \prod_{i=1}^n[(1-p_i)^{1-y_i}p_i^{y_i}]&=\sum_{i=1}^n[y_i\log p_i+(1-y_i)\log(1-p_i)]\\&=\sum_{i=1}^n[y_i\log \frac{p_i}{1-p_i}+\log(1-p_i)]\end{aligned}
logi=1∏n[(1−pi)1−yipiyi]=i=1∑n[yilogpi+(1−yi)log(1−pi)]=i=1∑n[yilog1−pipi+log(1−pi)],很明显;
log
p
i
1
−
p
i
=
w
⋅
x
i
\log \frac{p_i}{1-p_i}=w\cdot x_i
log1−pipi=w⋅xi,并且
log
(
1
−
p
i
)
=
−
log
[
e
x
p
(
w
⋅
x
i
)
+
1
]
\log(1-p_i)=-\log[exp(w\cdot x_i)+1]
log(1−pi)=−log[exp(w⋅xi)+1],最终就是:
∑
i
=
1
n
[
y
i
⋅
w
⋅
x
i
−
log
[
e
x
p
(
w
⋅
x
i
)
+
1
]
]
\sum_{i=1}^n[y_i\cdot w\cdot x_i-\log[exp(w\cdot x_i)+1]]
i=1∑n[yi⋅w⋅xi−log[exp(w⋅xi)+1]]
最终我们的目的就是通过已知的
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)求出
w
w
w,求法有:
- 遍历法,把所有可能的 w w w都代入,求出 a r g m a x L ( w ) argmax L(w) argmaxL(w)最大值
- 显示解,通过公式推导出关于 w w w的公式,代入 ( x i , y i ) (x_i,y_i) (xi,yi)计算
- 使用梯度下降法或牛顿法等优化算法进行迭代运算。