《机器学习》阅读笔记(三)
3 线性模型(linear model)
3.1 基本形式
- 设
- d d d:属性个数
- x = ( x 1 ; x 2 ; … ; x d ) \boldsymbol{x}=(x_1;x_2;\dots;x_d) x=(x1;x2;…;xd): x i x_i xi是 x \boldsymbol{x} x在第 i i i个属性上的取值
- w = ( w 1 ; w 2 ; … ; w d ) \boldsymbol{w}=(w_1;w_2;\dots;w_d) w=(w1;w2;…;wd)
- 表现形式
- 线性模型 f ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b f(\boldsymbol{x})=w_1x_1+w_2x_2+\dots+w_dx_d+b f(x)=w1x1+w2x2+⋯+wdxd+b
- 向量形式 f ( x ) = w T x + b f(\boldsymbol{x})=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b f(x)=wTx+b
3.2 线性回归(linear regression)
- 给定
- D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\dots,(\boldsymbol{x}_m,y_m)\} D={(x1,y1),(x2,y2),…,(xm,ym)}:数据集
- x i = ( x i 1 ; x i 2 ; … ; x i d ) \boldsymbol{x}_i=(x_{i1};x_{i2};\dots;x_{id}) xi=(xi1;xi2;…;xid)
- y i ∈ R y_i\in \mathbb{R} yi∈R
属性个数 | 1 |
d
d
d (多元线性回归(multivariate linear regression)) |
---|---|---|
试图学得 | f ( x i ) = w x i + b , 使 得 f ( x i ) ≃ y i f(x_i)=wx_i+b,使得f(x_i)\simeq y_i f(xi)=wxi+b,使得f(xi)≃yi | f ( x i ) = w T x i + b , 使 得 f ( x i ) ≃ y i f(\boldsymbol{x}_i)=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b,使得f(\boldsymbol{x}_i)\simeq y_i f(xi)=wTxi+b,使得f(xi)≃yi |
性能度量 | 均方误差(欧式距离) ( w ∗ , b ∗ ) = arg min ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg min ( w , b ) ∑ i = 1 m ( y i − w i x i − b ) 2 (w^*,b^*)=\mathop{\arg\min}\limits_{(w,b)}\sum\limits^m_{i=1}(f(x_i)-y_i)^2\\=\mathop{\arg\min}\limits_{(w,b)}\sum\limits^m_{i=1}(y_i-w_ix_i-b)^2 (w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wixi−b)2 | 令 1. w ^ = ( w ; b ) \hat{\boldsymbol{w}}=(\boldsymbol{w};b) w^=(w;b) 2. X \mathbf{X} X:表示数据集 D D D,大小为 m × ( d + 1 ) m\times (d+1) m×(d+1)的矩阵 X = ( x 11 x 12 … x 1 d 1 x 21 x 22 … x 2 d 1 ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 … x m d 1 ) = ( x 1 T 1 x 2 T 1 ⋮ ⋮ x m T 1 ) \mathbf{X}=\left(\begin{matrix}x_{11} & x_{12}&\dots & x_{1d} & 1\\x_{21} & x_{22} & \dots & x_{2d} & 1\\\vdots & \vdots &\ddots &\vdots &\vdots\\x_{m1} &x_{m2}&\dots &x_{md} &1\end{matrix}\right)=\left(\begin{matrix}\boldsymbol{x}_1^{\mathrm{T}} &1\\\boldsymbol{x}^\mathrm{T}_2 &1\\\vdots & \vdots\\\boldsymbol{x}^\mathrm{T}_m & 1\end{matrix} \right) X=⎝⎜⎜⎜⎛x11x21⋮xm1x12x22⋮xm2……⋱…x1dx2d⋮xmd11⋮1⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x1Tx2T⋮xmT11⋮1⎠⎟⎟⎟⎞ 3. y = ( y 1 ; y 2 ; … ; y m ) \boldsymbol{y}=(y_1;y_2;\dots;y_m) y=(y1;y2;…;ym) 则 w ^ ∗ = arg min w ^ ( y − X w ^ ) T ( y − X w ^ ) \hat{\boldsymbol{w}}^*=\mathop{\arg\min}\limits_{\hat{\boldsymbol{w}}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^\mathrm{T}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}}) w^∗=w^argmin(y−Xw^)T(y−Xw^) |
均方误差 | E ( w , b ) = ∑ i = 1 m ( y i − w i x i − b ) E_{(w,b)}=\sum^m_{i=1}(y_i-w_ix_i-b) E(w,b)=∑i=1m(yi−wixi−b) | E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol{w}}) Ew^=(y−Xw^)T(y−Xw^) |
求导 | ∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial E_{(w,b)}}{\partial w}=2\Bigg(w\sum\limits^m_{i=1}x_i^2-\sum\limits^m_{i=1}(y_i-b)x_i\Bigg) ∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w,b)}}{\partial b}=2\Bigg(mb-\sum\limits^m_{i=1}(y_i-wx_i)\Bigg) ∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi)) | ∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial \hat{\boldsymbol{w}}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol{w}}-\boldsymbol{y}) ∂w^∂Ew^=2XT(Xw^−y) |
令偏导为0 求得最优解的闭式解 | w = ∑ i = 1 m y i ( x i − x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum\limits^m_{i=1}y_i(x_i-\overline{x})}{\sum\limits^m_{i=1}x_i^2-\frac{1}m\Big(\sum\limits^m_{i=1}x_i\Big)^2} w=i=1∑mxi2−m1(i=1∑mxi)2i=1∑myi(xi−x) b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum\limits^m_{i=1}(y_i-wx_i) b=m1i=1∑m(yi−wxi)其中 x ‾ = 1 m ∑ i = 1 m x i \overline{x}=\frac{1}{m}\sum\limits^m_{i=1}x_i x=m1i=1∑mxi | (当 X T X \mathbf{X}^{\mathrm{T}}\mathbf{X} XTX为满秩矩阵或正定矩阵时) w ^ ∗ = ( X T X ) − 1 X T y \hat{\boldsymbol{w}}^*=(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} w^∗=(XTX)−1XTy |
模型 | f ( x i ) = x i T w + b f(x_i)=x_i^\mathrm{T}w+b f(xi)=xiTw+b | 令 x ^ i = ( x i ; 1 ) \hat{\boldsymbol{x}}_i=(\boldsymbol{x}_i;1) x^i=(xi;1),则 f ( x ^ i ) = x ^ i T ( X T X ) − 1 X T y f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^{\mathrm{T}}(\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\boldsymbol{y} f(x^i)=x^iT(XTX)−1XTy |
名称 | 模型 | 注 |
---|---|---|
线性回归模型 | y = w T x + b y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b y=wTx+b | - |
对数线性回归 | ln y = w T x + b \ln y=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b lny=wTx+b | - |
广义线性模型 | y = g − 1 ( w T x + b ) y=g^{-1}(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b) y=g−1(wTx+b) | g ( ⋅ ) g(\cdot) g(⋅):“联系函数”(link function)(单调可微函数) |
3.3 对数几率回归(logistic function)
函数 | 名称 | 描述 |
---|---|---|
y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+e−z1 | 对数几率回归 (对率回归) | 一种“Sigmoid函数” |
y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b)}} y=1+e−(wTx+b)1 | - | - |
ln y 1 − y = w T x + b \ln\frac{y}{1-y}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b ln1−yy=wTx+b | 几率(odds) | 若将 y y y视为样本 x \boldsymbol{x} x作为正例的可能性,则 1 − y 1-y 1−y是其反例的可能性。反映了 x \boldsymbol{x} x作为正例的相对可能性 |
ln y 1 − y \ln\frac{y}{1-y} ln1−yy | 对数几率(log odds,logit) | 对几率取对数 |
- 若将
y
y
y视为类后验概率估计
p
(
y
=
1
∣
x
)
p(y=1|\boldsymbol{x})
p(y=1∣x),则公式可重写为
ln p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b ⇒ { p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p ( y = 0 ∣ x ) = 1 1 + e w T x + b \ln\frac{p(y=1|\boldsymbol{x})}{p(y=0|\boldsymbol{x})}=\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b\Rightarrow\left\{\begin{matrix}p(y=1|\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}\\p(y=0|\boldsymbol{x})=\frac{1}{1+e^{\boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b}}\end{matrix} \right. lnp(y=0∣x)p(y=1∣x)=wTx+b⇒{p(y=1∣x)=1+ewTx+bewTx+bp(y=0∣x)=1+ewTx+b1 - 极大似然估计
→
\rightarrow
→估计
w
\boldsymbol{w}
w和
b
b
b
- 数据集: { ( x i , y i ) } i = 1 m \{(\boldsymbol{x}_i,y_i)\}^m_{i=1} {(xi,yi)}i=1m
- 对率回归模型最大化“对数似然” ℓ ( w , b ) = ∑ i = 1 m ln p ( y i ∣ x i ; w , b ) \ell(\boldsymbol{w},b)=\sum\limits^m_{i=1}\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b) ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b)
- 令
- β = ( w ; b ) \boldsymbol{\beta}=(\boldsymbol{w};b) β=(w;b)
- x ^ = ( x ; 1 ) \hat{\boldsymbol{x}}=(\boldsymbol{x};1) x^=(x;1)
- 则 w T x + b = β T x ^ \boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}+b=\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}} wTx+b=βTx^
- 再令
- p 1 ( x ^ ; β ) = p ( y i = 1 ∣ x ^ ; β ) p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y_i=1|\hat{\boldsymbol{x}};\boldsymbol{\beta}) p1(x^;β)=p(yi=1∣x^;β)
- p 0 ( x ^ ; β ) = p ( y i = 0 ∣ x ^ ; β ) = 1 − p 1 ( x ^ ; β ) p_0(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y_i=0|\hat{\boldsymbol{x}};\boldsymbol{\beta})=1-p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta}) p0(x^;β)=p(yi=0∣x^;β)=1−p1(x^;β)
- 则 p ( y i ∣ x i ; w , b ) = y i p 1 ( x i ^ ; β ) + ( 1 − y i ) p 0 ( x ^ i ; β ) p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol{x}_i};\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol{x}}_i;\boldsymbol{\beta}) p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(x^i;β) ℓ ( β ) = ∑ i = 1 m [ ln ( y i e β T x ^ i + ( 1 − y i ) ) − ln ( 1 + e β T x ^ i ) ] \ell(\boldsymbol{\beta})=\sum\limits^m_{i=1}\Big[\ln \big(y_ie^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i}+(1-y_i)\big)-\ln(1+e^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i})\Big] ℓ(β)=i=1∑m[ln(yieβTx^i+(1−yi))−ln(1+eβTx^i)]
- 考虑 y i ∈ { 0 , 1 } y_i\in\{0,1\} yi∈{0,1},等价于最小化 ℓ ( β ) = ∑ i = 1 m ( − y i β T x ^ i + ln ( 1 + e β T x ^ i ) ) \ell(\boldsymbol{\beta})=\sum\limits^m_{i=1}\big( -y_i\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i+\ln(1+e^{\boldsymbol{\beta}^\mathrm{T}\hat{\boldsymbol{x}}_i})\big) ℓ(β)=i=1∑m(−yiβTx^i+ln(1+eβTx^i))
- 求最优解(梯度下降法、牛顿法) β ∗ = arg min β ℓ ( β ) \boldsymbol{\beta}^*=\mathop{\arg\min}\limits_\boldsymbol{\beta}\ell(\boldsymbol{\beta}) β∗=βargminℓ(β)
3.4 线性判别分析(Linear Discriminant Analysis,LDA)
- 二分类问题
- 思想:
- 训练:给定数据集例集,设法将样例投影到一条直线上,使得
- 同类样例的投影点尽可能接近
- 异类样例的投影点尽可能远离
- 预测:在对新样本分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别
- 训练:给定数据集例集,设法将样例投影到一条直线上,使得
分类 | 二分类 | 多分类 |
---|---|---|
记 | 1.
D
=
{
(
x
i
,
y
i
)
}
i
=
1
m
D=\{(\boldsymbol{x}_i,y_i)\}^m_{i=1}
D={(xi,yi)}i=1m 2. y i ∈ { 0 , 1 } y_i\in\{0,1\} yi∈{0,1} 3. X i X_i Xi、 μ i \boldsymbol{\mu}_i μi、 Σ i \boldsymbol{\Sigma}_i Σi:第 i ∈ { 0 , 1 } i\in\{0,1\} i∈{0,1}类示例的集合、均值向量、协方差矩阵 4. 直线 w \boldsymbol{w} w | - |
得 | 1.
w
T
μ
0
\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0
wTμ0、
w
T
μ
1
\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1
wTμ1:两类样本的中心在直线上的投影 2. w T Σ 0 w \boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w} wTΣ0w、 w T Σ 1 w \boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w} wTΣ1w:两类样本的协方差 | - |
目标 | 同类样例投影点协方差尽可能小
→
w
T
Σ
0
w
+
w
T
Σ
1
w
\rightarrow\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}+\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}
→wTΣ0w+wTΣ1w尽可能小 异类样例类中心之间距离尽可能大 → ∥ w T μ 0 − w T μ 1 ∥ 2 2 \rightarrow\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0-\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\|^2_2 →∥wTμ0−wTμ1∥22尽可能大 | - |
最大化目标 | J = ∥ w T μ 0 − w T μ 1 ∥ 2 2 w T Σ 0 w + w T Σ 1 w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w J=\frac{\|\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_0-\boldsymbol{w}^\mathrm{T}\boldsymbol{\mu}_1\|^2_2}{\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_0\boldsymbol{w}+\boldsymbol{w}^\mathrm{T}\boldsymbol{\Sigma}_1\boldsymbol{w}}=\frac{\boldsymbol{w}^\mathrm{T}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^\mathrm{T}\boldsymbol{w}}{\boldsymbol{w}^\mathrm{T}(\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1)\boldsymbol{w}} J=wTΣ0w+wTΣ1w∥wTμ0−wTμ1∥22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw | - |
定义 | 类内散度矩阵:
S
w
=
Σ
0
+
Σ
1
=
∑
x
∈
X
0
(
x
−
μ
0
)
(
x
−
μ
0
)
T
+
∑
x
∈
X
1
(
x
−
μ
1
)
(
x
−
μ
1
)
T
\mathbf{S}_\boldsymbol{w}=\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1\\=\sum\limits_{\boldsymbol{x}\in X_0}(\boldsymbol{x}-\boldsymbol{\mu}_0)(\boldsymbol{x}-\boldsymbol{\mu}_0)^\mathrm{T}+\sum\limits_{\boldsymbol{x}\in X_1}(\boldsymbol{x}-\boldsymbol{\mu}_1)(\boldsymbol{x}-\boldsymbol{\mu}_1)^\mathrm{T}
Sw=Σ0+Σ1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T 类间散度矩阵: S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T \mathbf{S}_b=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^\mathrm{T} Sb=(μ0−μ1)(μ0−μ1)T | 全局散度矩阵: S t = S b + S w = ∑ i = 1 m ( x i − μ ) ( x i − μ ) T \mathbf{S}_t=\mathbf{S}_b+\mathbf{S}_w\\=\sum\limits^m_{i=1}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^\mathrm{T} St=Sb+Sw=i=1∑m(xi−μ)(xi−μ)T类内散度矩阵: S w = ∑ i = 1 N S w i \mathbf{S}_w=\sum\limits^N_{i=1}\mathbf{S}_{w_i} Sw=i=1∑NSwi类间散度矩阵: S b = S t − S w = ∑ i = 1 N m i ( μ i − μ ) ( μ i − μ ) T \mathbf{S}_b=\mathbf{S}_t-\mathbf{S}_w\\=\sum\limits^N_{i=1}m_i(\boldsymbol{\mu}_i-\boldsymbol{\mu})(\boldsymbol{\mu}_i-\boldsymbol{\mu})^\mathrm{T} Sb=St−Sw=i=1∑Nmi(μi−μ)(μi−μ)T |
则 |
J
=
w
T
S
b
w
w
T
S
w
w
J=\frac{\boldsymbol{w}^\mathrm{T}\mathbf{S}_b\boldsymbol{w}}{\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}}
J=wTSwwwTSbw 即LDA最大化的目标: S b \mathbf{S}_b Sb与 S w \mathbf{S}_\boldsymbol{w} Sw的“广义瑞利商”(generalized Rayleigh quotient) 解只与 w \boldsymbol{w} w的方向有关(若 w \boldsymbol{w} w是一个解,则对于任意常数 α \alpha α, α w \alpha\boldsymbol{w} αw也是解) | - |
过程 | 令
w
T
S
w
w
=
1
\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}=1
wTSww=1 则 min w − w T S b w s . t . w T S w w = 1 \min\limits_\boldsymbol{w} -\boldsymbol{w}^\mathrm{T}\mathbf{S}_b\boldsymbol{w} \\\mathrm{s.t.}\quad\boldsymbol{w}^\mathrm{T}\mathbf{S}_\boldsymbol{w}\boldsymbol{w}=1 wmin−wTSbws.t.wTSww=1 | max W t r ( W T S b W ) t r ( W T S w W ) \max\limits_\mathbf{W}\frac{\mathrm{tr}(\mathbf{W}^\mathrm{T}\mathbf{S}_b\mathbf{W})}{\mathrm{tr}(\mathbf{W}^\mathrm{T}\mathbf{S}_w\mathbf{W})} Wmaxtr(WTSwW)tr(WTSbW) W ∈ R d × ( N − 1 ) \mathbf{W}\in\mathbb{R}^{d\times (N-1)} W∈Rd×(N−1) |
解得 | w = S w − 1 ( μ 0 − μ 1 ) \boldsymbol{w}=\mathrm{S}^{-1}_\boldsymbol{w}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1) w=Sw−1(μ0−μ1) |
W
\mathbf{W}
W的闭式解是
S
w
−
1
S
b
\mathbf{S}^{-1}_w\mathbf{S}_b
Sw−1Sb的
d
′
d'
d′个最大非零广义特征值所对应的特征向量组成的矩阵 ( d ′ ⩽ N − 1 d'\leqslant N-1 d′⩽N−1) |
LDA:常被视为一种经典的监督降维技术( d ′ ≪ d d'\ll d d′≪d)
3.5 多分类学习
- 关键:对多分类任务进行拆分,以及如何对多个分类器进行集成。
- 给定
- D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\dots,(\boldsymbol{x}_m,y_m)\} D={(x1,y1),(x2,y2),…,(xm,ym)}
- y i ∈ { C 1 , C 2 , … , C N } y_i\in\{C_1,C_2,\dots,C_N\} yi∈{C1,C2,…,CN}
拆分策略 | en | 分类器 | 分类器个数 | 测试 |
---|---|---|---|---|
一对一 | One vs. one,OvO | 将
N
N
N个类别两两配对 (为区分类别 C i C_i Ci和 C j C_j Cj训练一个分类器,该分类器把 D D D中的 C i C_i Ci类样例作为正例, C j C_j Cj类样例作为反例) | ( N 2 ) {N\choose 2} (2N) | 新样本同时提交所有分类器,最终结果可通过投票产生:即把被预测得最多的类别作为最终分类结果 |
一对其余 | One vs. Rest,OvR | 每次将一个类的样例作为正例、所有其他类的样例作为反例 | N N N | 1.仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果 2.多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果 |
多对多 | Many vs. many,MvM | 纠错输出码(ECOC) | - | - |
ECOC | 二元码 | 三元码 |
---|---|---|
类别 | 正类(+1)+反类(-1) | 正类(+1)+反类(-1)+停用类(0) |
解码 | 各分类器的预测结果联合起来形成了测试示例的编码,该编码与各类所对应的编码进行比较,将距离(欧式距离或海明距离等)最小的编码所对应的类别作为预测结果 | (同左) |
3.6 类别不平衡问题
- 类别不平衡(class-imbalance):分类任务中不同类别的训练样例数目差别很大的情况
正反类样例数目 | 相当 | m + m^+ m+和 m − m^- m−不同 |
---|---|---|
决策规则 | 若 y 1 − y > 1 \frac{y}{1-y}>1 1−yy>1则 预测为正例 | 若 y 1 − y > m + m − \frac{y}{1-y}>\frac{m^+}{m^-} 1−yy>m−m+则 预测为正例 |
阈值 | 0.5 0.5 0.5 | m + m − \frac{m^+}{m^-} m−m+ |
- 基本策略 → \rightarrow →再缩放(rescaling):对其预测值进行调整 y ′ 1 − y ′ = y 1 − y × m − m + \frac{y'}{1-y'}=\frac{y}{1-y}\times\frac{m^-}{m^+} 1−y′y′=1−yy×m+m−