1、逻辑回归概述
简单来说,逻辑回归模型就是讲线性回归模型的结果输入一个sigmoid
函数,将回归值映射到0 ~ 1,表示输出为类别 1 的概率。
2、逻辑回归原理
2.1、逻辑回归模型
线性回归表达式如下:
z
i
=
w
⋅
x
i
+
b
z_i = \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}
zi=w⋅xi+b
式中
x
i
\boldsymbol{x}_i
xi 是第
i
i
i 个样本的
N
N
N 个特征组成的特征向量,即
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
.
,
x
i
(
N
)
)
\boldsymbol{x}_i=(x^{(1)}_i,x^{(2)}_i,...,x^{(N)}_i)
xi=(xi(1),xi(2),...,xi(N)); $ \boldsymbol{w}$ 为
N
N
N 个特征对应的特征权重组成的向量,即
w
=
(
w
1
,
w
2
,
.
.
.
,
w
N
)
\boldsymbol{w}=(w_1,w_2,...,w_N)
w=(w1,w2,...,wN);
b
\boldsymbol{b}
b 是第
i
i
i 个样本对应的偏置常数。
sigmoid
函数:
y
i
=
1
1
+
e
−
z
i
y_i=\frac{1}{1 + e^{-z_i}}
yi=1+e−zi1
其中,
z
i
z_i
zi 是自变量,
y
i
y_i
yi 是因变量,
e
e
e 是自然常数。
在线性回归的结果上套一个sigmoid
函数就能得到逻辑回归的结果,即
y
i
=
1
1
+
e
−
z
i
=
1
1
+
e
−
(
w
⋅
x
i
+
b
)
y_i=\frac{1}{1 + e^{-z_i}}=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}}
yi=1+e−zi1=1+e−(w⋅xi+b)1
如果我们将
y
i
=
1
y_i=1
yi=1 视为
x
i
\boldsymbol{x}_i
xi 作为正例的可能性,即
P
(
y
i
=
1
∣
x
i
)
=
1
1
+
e
−
(
w
⋅
x
i
+
b
)
=
e
w
⋅
x
i
+
b
1
+
e
w
⋅
x
i
+
b
P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}}=\frac{e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}{1 + e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}
P(yi=1∣xi)=1+e−(w⋅xi+b)1=1+ew⋅xi+bew⋅xi+b
那么反例
y
i
=
0
y_i=0
yi=0 的可能性就为
P
(
y
i
=
0
∣
x
i
)
=
1
−
P
(
y
i
=
1
∣
x
i
)
=
1
1
+
e
w
⋅
x
i
+
b
P(y_i=0|\boldsymbol{x}_i)=1-P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}
P(yi=0∣xi)=1−P(yi=1∣xi)=1+ew⋅xi+b1
定义两者的比值
P
(
y
i
=
1
∣
x
i
)
P
(
y
i
=
0
∣
x
i
)
\frac{P(y_i=1|\boldsymbol{x}_i)}{P(y_i=0|\boldsymbol{x}_i)}
P(yi=0∣xi)P(yi=1∣xi) 为“概率”,对其取对数得到“对数概率”,可得:
l
n
P
(
y
i
=
1
∣
x
i
)
1
−
P
(
y
i
=
1
∣
x
i
)
=
w
⋅
x
i
+
b
ln\frac{P(y_i=1|\boldsymbol{x}_i)}{1-P(y_i=1|\boldsymbol{x}_i)}= \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}
ln1−P(yi=1∣xi)P(yi=1∣xi)=w⋅xi+b
上面定义的对数概率
l
n
P
(
y
i
=
1
∣
x
i
)
1
−
P
(
y
i
=
1
∣
x
i
)
ln\frac{P(y_i=1|\boldsymbol{x}_i)}{1-P(y_i=1|\boldsymbol{x}_i)}
ln1−P(yi=1∣xi)P(yi=1∣xi) 的结果正好是线性回归的预测结果
w
⋅
x
i
+
b
\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}
w⋅xi+b。由此可知,逻辑回归的本质就是用线性回归的预测结果
w
⋅
x
i
+
b
\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}
w⋅xi+b 去逼近真实标记的对数概率
l
n
y
1
−
y
ln\frac{y}{1-y}
ln1−yy,实际上这也是逻辑回归被称为“对数回归”的原因。
2.2、 逻辑回归学习策略
由上可知,逻辑回归模型中,正例和反例各自的表达式分别如下:
P
(
y
i
=
1
∣
x
i
)
=
1
1
+
e
−
(
w
⋅
x
i
+
b
)
=
e
w
⋅
x
i
+
b
1
+
e
w
⋅
x
i
+
b
P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{-( \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b})}}=\frac{e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}{1 + e^{ \boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}
P(yi=1∣xi)=1+e−(w⋅xi+b)1=1+ew⋅xi+bew⋅xi+b
P
(
y
i
=
0
∣
x
i
)
=
1
−
P
(
y
i
=
1
∣
x
i
)
=
1
1
+
e
w
⋅
x
i
+
b
P(y_i=0|\boldsymbol{x}_i)=1-P(y_i=1|\boldsymbol{x}_i)=\frac{1}{1 + e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}}}
P(yi=0∣xi)=1−P(yi=1∣xi)=1+ew⋅xi+b1
构造似然函数,将其转化为一个优化问题来估计出
w
\boldsymbol{w}
w 和
b
\boldsymbol{b}
b 了。
对给定数据集
T
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
M
,
y
M
)
T={(x_1,y_1),(x_2,y_2),...(x_M,y_M)}
T=(x1,y1),(x2,y2),...(xM,yM),定义似然函数:
L
(
w
,
b
)
=
∏
i
=
1
M
[
P
(
y
i
=
1
∣
x
i
)
]
y
i
[
1
−
P
(
y
i
=
1
∣
x
i
)
]
1
−
y
i
L(\boldsymbol{w},\boldsymbol{b})=\prod_{i=1}^{M}[P(y_i=1|\boldsymbol{x}_i)]^{y_i}[1-P(y_i=1|\boldsymbol{x}_i)]^{1-y_i}
L(w,b)=i=1∏M[P(yi=1∣xi)]yi[1−P(yi=1∣xi)]1−yi
取对数,得对数似然函数:
l
n
L
(
w
,
b
)
=
∑
i
=
1
M
y
i
⋅
l
n
[
P
(
y
i
=
1
∣
x
i
)
]
+
(
1
−
y
i
)
l
n
[
1
−
P
(
y
i
=
1
∣
x
i
)
]
=
∑
i
=
1
M
y
i
⋅
(
w
⋅
x
i
+
b
)
−
l
n
(
1
+
e
w
⋅
x
i
+
b
)
lnL(\boldsymbol{w},\boldsymbol{b})=\sum_{i=1}^{M} y_i\cdot ln[P(y_i=1|\boldsymbol{x}_i)]+(1-y_i)ln[1-P(y_i=1|\boldsymbol{x}_i)]=\sum_{i=1}^{M} y_i\cdot (\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}) - ln(1+e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}})
lnL(w,b)=i=1∑Myi⋅ln[P(yi=1∣xi)]+(1−yi)ln[1−P(yi=1∣xi)]=i=1∑Myi⋅(w⋅xi+b)−ln(1+ew⋅xi+b)
我们只需要使每个样本属于其真实标记的概率越大越好,即
max
w
,
b
∑
i
=
1
M
y
i
⋅
(
w
⋅
x
i
+
b
)
−
l
n
(
1
+
e
w
⋅
x
i
+
b
)
\max \limits_{\boldsymbol{w},\boldsymbol{b}} \sum_{i=1}^{M} y_i\cdot (\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}) - ln(1+e^{\boldsymbol{w}\cdot\boldsymbol{x}_i+\boldsymbol{b}})
w,bmaxi=1∑Myi⋅(w⋅xi+b)−ln(1+ew⋅xi+b)
3、小结
逻辑回归的名字叫作回归,其实是一种分类方法,下面阐述逻辑回归的优缺点。
3.1、优点
- 逻辑回归模型直接对分类的可能性进行建模,无须事先假设数据满足某种分布类型。
- 逻辑回归模型不仅可以预测出样本类别,还可以得到预测为某类别的近似概率,这在许多需要利用概率辅助决策的任务中比较实用。
- 逻辑回归模型中使用的对数损失函数是任意阶可导的凸函数,有很好的的数学性质,可避免局部最小值问题。
- 逻辑回归模型对一般的分类问题都可使用,特别是对稀疏高维特征的处理没有太大的压力。
3.2、缺点
- 逻辑回归模型本质是一种线性模型,只能做线性分类,不适合处理非线性的情况,一般需要结合较多的人工特征处理使用。
- 逻辑回归对正负样本的分布比较敏感,所以要注意样本平衡性,即 y = 1 y=1 y=1 的样本数不能太少。