1、基本形式
线性模型(linear model):试图学得一个通过属性的线性组合来进行预测的函数
由d个属性来描述的示例
x
=
(
x
1
;
x
2
;
.
.
.
;
x
d
)
\boldsymbol x=(x_1;x_2;...;x_d)
x=(x1;x2;...;xd),线性模型可表示为:
f
(
x
)
=
w
1
x
1
+
w
2
x
2
,
.
.
.
+
w
d
x
d
+
b
f(\boldsymbol x)=w_1x_1+w_2x_2,...+w_dx_d+b
f(x)=w1x1+w2x2,...+wdxd+b
用向量形式写成:
f
(
x
)
=
w
T
x
+
b
f(\boldsymbol x)=\boldsymbol w^T\boldsymbol x+b
f(x)=wTx+b
特点:简单、易于建模;很多强大的非线性模型可在线性模型的基础上引入层级结构或高维映射得到;很好的可解释性( w \boldsymbol w w直观的表达了各属性在预测中的重要性)
2、线性回归(linear regression)
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(\boldsymbol x_1,y_1),(\boldsymbol x_2,y_2),...,(\boldsymbol x_m,y_m)\} D={(x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) \boldsymbol x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid), y i ∈ R y_i\in\Bbb R yi∈R
先考虑d=1,即属性只有一个的情况,
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
D=\{(x_i,y_i)\}_{i=1}^m
D={(xi,yi)}i=1m。
线性回归试图学得:
f
(
x
i
)
=
w
x
i
+
b
,
使
得
f
(
x
i
)
≈
y
i
f(x_i)=wx_i+b,使得f(x_i)\approx y_i
f(xi)=wxi+b,使得f(xi)≈yi
如何确定
w
w
w和
b
b
b?回归任务中常用“均方误差”作为性能度量。最小化均方误差:
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(w^*,b^*)=\mathop{arg \ min}_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\mathop{arg \ min}_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2
(w∗,b∗)=arg min(w,b)i=1∑m(f(xi)−yi)2=arg min(w,b)i=1∑m(yi−wxi−b)2
均方误差对应几何中的欧氏距离。
基于均方误差最小化来进行模型求解的方法称为**“最小二乘法(least square method)”。在线性回归中,最小二乘法试图找到一条直线,使得所有样本到直线上的欧式距离之和最小**。
求解 w w w和 b b b使得 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E(w,b)=\sum_{i=1}^m(y_i-wx_i-b)^2 E(w,b)=∑i=1m(yi−wxi−b)2最小化的过程,称为线性回归模型的最小二乘“参数估计”。将 E ( w , b ) E(w,b) E(w,b)分别对 w w w和 b b b求导,在导数为0处求解。
多元线性回归(multivariate linear regression)
更一般的情形,样本由d个属性描述,试图学得:
f
(
x
i
)
=
w
T
x
i
+
b
,
使
得
f
(
x
i
)
≈
y
i
f(\boldsymbol x_i)=\boldsymbol w^T\boldsymbol x_i+b,使得f(\boldsymbol x_i)\approx y_i
f(xi)=wTxi+b,使得f(xi)≈yi
同样用最小二乘法来对
w
\boldsymbol w
w和
b
b
b进行估计。
对数线性回归(log-linear regression)
如果认为示例输出标记在指数尺度上变化,线性模型逼近的目标为:
l
n
y
=
w
T
x
+
b
ln\ y=\boldsymbol w^T\boldsymbol x+b
ln y=wTx+b
或者说,$ y=e^{\boldsymbol w^T\boldsymbol x+b}$
广义线性模型(generalized linear model)
更一般的,考虑单调可微函数
g
(
⋅
)
g(·)
g(⋅),模型为:
y
=
g
−
1
(
w
T
x
+
b
)
y=g^{-1}(\boldsymbol w^T\boldsymbol x+b)
y=g−1(wTx+b)
函数
g
(
⋅
)
g(·)
g(⋅)成为联系函数(link function)
###3、逻辑斯蒂回归(logistic regression)
或对数几率回归。参考广义线性模型,找到一个单调可微函数将线性回归模型的预测值映射成实际标记
y
y
y。
考虑二分类任务,其输出标记为
y
∈
{
0
,
1
}
y\in\{0,1\}
y∈{0,1}。需要将线性回归模型的预测值
z
=
w
T
x
+
b
z=\boldsymbol w^Tx+b
z=wTx+b转换为0/1。
最理想的是“单位阶跃函数(unit-step function)”
从上图可以看出,阶跃函数不连续。于是我们希望找到能在一定程度上近似单位阶跃函数,并单调可微的替代函数,“Sigmoid函数”:
y
=
1
1
+
e
−
z
y=\frac{1}{1+e^{-z}}
y=1+e−z1
对应图像是一个0-1之间的s型曲线:
将其作为
g
−
1
(
⋅
)
g^{-1}(·)
g−1(⋅)带入广义线性模型,得到:
y
=
1
1
+
e
−
(
w
T
x
+
b
)
y=\frac{1}{1+e^{-(\boldsymbol w^Tx+b)}}
y=1+e−(wTx+b)1
l
n
y
1
−
y
=
w
T
x
+
b
ln\ \frac{y}{1-y}=\boldsymbol w^Tx+b
ln 1−yy=wTx+b
如果将
y
y
y作为正例的可能性,则
1
−
y
1-y
1−y为反例的可能性,比值
y
1
−
y
\frac{y}{1-y}
1−yy称为**“几率(odds)”,反应了
x
x
x为正例的相对可能性。取对数
l
n
y
1
−
y
ln \frac{y}{1-y}
ln1−yy得到“对数几率(logit)”**
如何估计
w
\boldsymbol w
w和
b
b
b?
将
y
y
y视为类后验概率估计
p
(
y
=
1
∣
x
)
p(y=1|x)
p(y=1∣x),
l
n
p
(
y
=
1
∣
x
)
p
(
y
=
0
∣
x
)
=
w
T
x
+
b
ln\frac{p(y=1|x)}{p(y=0|x)}=\boldsymbol w^Tx+b
lnp(y=0∣x)p(y=1∣x)=wTx+b
则有:
p
(
y
=
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
p(y=1|x)=\frac{e^{\boldsymbol w^Tx+b}}{1+e^{\boldsymbol w^Tx+b}}
p(y=1∣x)=1+ewTx+bewTx+b
p
(
y
=
0
∣
x
)
=
1
1
+
e
w
T
x
+
b
p(y=0|x)=\frac{1}{1+e^{\boldsymbol w^Tx+b}}
p(y=0∣x)=1+ewTx+b1
通过“极大似然法”来估计
w
\boldsymbol w
w和
b
b
b。给定数据集
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
D=\{(\boldsymbol x_i,y_i)\}_{i=1}^m
D={(xi,yi)}i=1m,逻辑斯蒂回归模型最大化“对数似然log-likelihood”
ℓ
(
w
,
b
)
=
∑
i
=
1
m
l
n
p
(
y
i
∣
x
i
;
w
,
b
)
\ell(\boldsymbol w,b)=\sum_{i=1}^mln\ p(y_i|\boldsymbol x_i;\boldsymbol w,b)
ℓ(w,b)=i=1∑mln p(yi∣xi;w,b)
令每个样本属于其真实标记的概率越大越好。可采用经典数值优化算法如梯度下降、牛顿法求得最优解。
注意:逻辑斯蒂回归是一种分类学习方法,利用线性回归模型的预测结果去逼近真实标记的对数几率。
**优点:**1)直接对分类可能性进行建模,无需事先假设数据分布;2)不仅预测类别,还可得到近似概率预测;3)对数几率函数是任意阶可求导的凸函数,便于求取最优解。
###4、线性判别分析(linear discriminant analysis LDA)
LDA思想:设法将样例投影到一条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能原理。如图:
5、多分类学习
注意区分:多分类(类别是互斥的),多标注(一个样本可以有多个标注)
考虑N个类别
C
1
,
C
2
,
.
.
.
,
C
N
C_1,C_2,...,C_N
C1,C2,...,CN,基本思路是“拆解法”,将多分类任务拆为若干个二分类任务,为每个二分类任务训练一个分类器,最后集成分类结果。
给定数据集
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
,
y
i
∈
{
C
1
,
C
2
,
.
.
.
,
C
N
}
D=\{(\boldsymbol x_i,y_i)\}_{i=1}^m,y_i\in\{C_1,C_2,...,C_N\}
D={(xi,yi)}i=1m,yi∈{C1,C2,...,CN}
经典拆分策略有:
1)一对一(OvO)
将N个类别两两配对,产生N(N-1)/2个分类任务。例如,区别分类
C
i
和
C
j
C_i和C_j
Ci和Cj训练一个分类器,
C
i
C_i
Ci作为正例,
C
j
C_j
Cj作为反例。
测试阶段:将样本提交给所有分类器,一共得到N(N-1)/2个分类结果,最终结果可投票产生。
2)一对其余(OvR)
每次将一个类别的样例作为正例,其他样例作为反例,共训练N个分类器。
测试阶段:若只有一个分类器预测为正例,则类别标记直接作为最终结果;若有多个分类器预测为正例,则选择置信度最大的分类器的类别标记作为结果。
3)多对多(MvM)
每次将若干个类作为正类,其他若干个类作为反类。MvM的正、反类构造必须有特殊的编码。常用“纠错输出码error correct output codes ECOC”
###6、类别不平衡问题
class-imbalance是指分类任务中不同类别的训练样例数差别很大的情况。实际问题中,一般正样例较少,反样例较多。
解决办法:
1)欠采样(undersampling)
随机丢弃反例可能会丢掉重要信息,欠采样的代表性算法EasyEnsemble,利用集成学习机制,将反例划分为若干个集合供不同学习器使用,这样每个学习器都进行了欠采样,在全局看来也没有丢失信息。
2)过采样(oversampling)
不能简单地对正样本进行重复采样,否则会导致严重的过拟合。代表性算法由SMOTE,通过对训练集里的正例进行插值来产生额外的正例。
3)代价敏感学习(cost-sensitive learning)
基于类别的“误分类代价”,以二分类为例的代价矩阵。在第二章代价敏感里有讲到。