模式识别与机器学习课程笔记(5):核方法
引言
核方法是解决非线性分类与回归问题的核心技术,其本质是通过“核技巧”(Kernel Trick)将低维非线性可分数据映射到高维线性可分空间,同时避免直接计算高维空间的复杂内积运算。支持向量机(SVM)是核方法最经典的应用场景,而SVM的“最大间隔”思想又与“结构风险最小化”理论深度绑定,共同保证了模型的强泛化能力。本文将从SVM的基础原理出发,逐步解析核方法的核心逻辑,最终通过结构风险最小化理论解释SVM的泛化优势。
一、支持向量机(SVM)
支持向量机(SVM)的核心目标是在特征空间中找到最大间隔超平面,实现对样本的分类。根据样本是否线性可分,SVM可分为“硬间隔SVM”(线性可分)和“软间隔SVM”(线性不可分)两类,二者均通过优化问题推导超平面参数。
1.1 硬间隔SVM:线性可分场景
当样本在低维特征空间中可被某一超平面完全分开(无错分样本)时,硬间隔SVM的目标是找到“离两类样本最远”的超平面——即最大间隔超平面。
1.1.1 超平面与间隔定义
设低维特征空间为
R
d
\mathbb{R}^d
Rd,样本
x
∈
R
d
\boldsymbol{x} \in \mathbb{R}^d
x∈Rd,线性超平面的方程为:
w
T
x
+
b
=
0
\boldsymbol{w}^T \boldsymbol{x} + b = 0
wTx+b=0
其中
w
∈
R
d
\boldsymbol{w} \in \mathbb{R}^d
w∈Rd是超平面法向量(决定超平面方向),
b
b
b是阈值(决定超平面位置)。
为量化“间隔”,定义两类样本到超平面的距离:
- 函数间隔:对样本 ( x i , y i ) (\boldsymbol{x}_i, y_i) (xi,yi)( y i ∈ { + 1 , − 1 } y_i \in \{+1, -1\} yi∈{+1,−1}为类别标记),函数间隔为 γ ^ i = y i ( w T x i + b ) \hat{\gamma}_i = y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) γ^i=yi(wTxi+b)。函数间隔与 w \boldsymbol{w} w、 b b b的缩放相关(如 w → 2 w \boldsymbol{w} \to 2\boldsymbol{w} w→2w, b → 2 b b \to 2b b→2b,间隔翻倍),无法直接反映真实距离。
- 几何间隔:对样本 ( x i , y i ) (\boldsymbol{x}_i, y_i) (xi,yi),几何间隔为 γ i = γ ^ i ∥ w ∥ \gamma_i = \frac{\hat{\gamma}_i}{\|\boldsymbol{w}\|} γi=∥w∥γ^i,表示样本到超平面的垂直距离(与 w \boldsymbol{w} w、 b b b缩放无关,是真实距离)。
两类样本的“最小几何间隔”为 γ = min i = 1 , . . . , N γ i \gamma = \min_{i=1,...,N} \gamma_i γ=mini=1,...,Nγi,硬间隔SVM的目标是最大化 γ \gamma γ。
1.1.2 优化问题构建
最大化几何间隔
γ
\gamma
γ等价于在“所有样本几何间隔≥
γ
\gamma
γ”的约束下,最小化
∥
w
∥
\|\boldsymbol{w}\|
∥w∥(因
γ
=
γ
^
∥
w
∥
\gamma = \frac{\hat{\gamma}}{\|\boldsymbol{w}\|}
γ=∥w∥γ^,固定
γ
^
=
1
\hat{\gamma}=1
γ^=1时,
γ
\gamma
γ与
1
∥
w
∥
\frac{1}{\|\boldsymbol{w}\|}
∥w∥1成正比)。最终优化问题为:
min
w
,
b
1
2
∥
w
∥
2
s.t.
y
i
(
w
T
x
i
+
b
)
≥
1
(
i
=
1
,
2
,
.
.
.
,
N
)
\min_{\boldsymbol{w}, b} \quad \frac{1}{2} \|\boldsymbol{w}\|^2 \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 \quad (i=1,2,...,N)
w,bmin21∥w∥2s.t.yi(wTxi+b)≥1(i=1,2,...,N)
- 目标函数 1 2 ∥ w ∥ 2 \frac{1}{2}\|\boldsymbol{w}\|^2 21∥w∥2:为简化求导,用平方范数替代范数;
- 约束条件:确保所有样本的函数间隔≥1,即几何间隔≥ 1 ∥ w ∥ \frac{1}{\|\boldsymbol{w}\|} ∥w∥1。
1.1.3 对偶问题与支持向量
上述优化问题是凸二次规划问题,可通过拉格朗日乘数法转化为对偶问题,简化求解。
-
构造拉格朗日函数:
引入拉格朗日乘数 α i ≥ 0 \alpha_i \geq 0 αi≥0(对应每个样本的约束),拉格朗日函数为:
L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i [ y i ( w T x i + b ) − 1 ] L(\boldsymbol{w}, b, \alpha) = \frac{1}{2}\|\boldsymbol{w}\|^2 - \sum_{i=1}^N \alpha_i [y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) - 1] L(w,b,α)=21∥w∥2−i=1∑Nαi[yi(wTxi+b)−1] -
求解对偶问题:
对 w \boldsymbol{w} w和 b b b求偏导并令其为0,可得:- ∂ L ∂ w = w − ∑ i = 1 N α i y i x i = 0 ⟹ w = ∑ i = 1 N α i y i x i \frac{\partial L}{\partial \boldsymbol{w}} = \boldsymbol{w} - \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i = 0 \implies \boldsymbol{w} = \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i ∂w∂L=w−∑i=1Nαiyixi=0⟹w=∑i=1Nαiyixi
- ∂ L ∂ b = − ∑ i = 1 N α i y i = 0 ⟹ ∑ i = 1 N α i y i = 0 \frac{\partial L}{\partial b} = -\sum_{i=1}^N \alpha_i y_i = 0 \implies \sum_{i=1}^N \alpha_i y_i = 0 ∂b∂L=−∑i=1Nαiyi=0⟹∑i=1Nαiyi=0
将上述结果代入拉格朗日函数,得到对偶问题:
max α ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j s.t. ∑ i = 1 N α i y i = 0 , α i ≥ 0 ( i = 1 , . . . , N ) \max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad \alpha_i \geq 0 \quad (i=1,...,N) αmaxi=1∑Nαi−21i=1∑Nj=1∑NαiαjyiyjxiTxjs.t.i=1∑Nαiyi=0,αi≥0(i=1,...,N) -
支持向量的定义:
对偶问题求解后,多数 α i = 0 \alpha_i = 0 αi=0,仅少数 α i > 0 \alpha_i > 0 αi>0的样本对应 α i > 0 \alpha_i > 0 αi>0,这些样本称为支持向量(Support Vectors)。- 支持向量满足 y i ( w T x i + b ) = 1 y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) = 1 yi(wTxi+b)=1,即位于“间隔边界”上;
- 超平面仅由支持向量决定,非支持向量对超平面无影响(因 α i = 0 \alpha_i=0 αi=0,不参与 w \boldsymbol{w} w的计算)。
1.2 软间隔SVM:线性不可分场景
实际数据常存在噪声或重叠,无法用硬间隔SVM完全分开,此时需引入松弛变量允许少量样本错分,即软间隔SVM。
1.2.1 优化问题修正
引入松弛变量
ξ
i
≥
0
\xi_i \geq 0
ξi≥0(表示第
i
i
i个样本的错分程度:
ξ
i
=
0
\xi_i=0
ξi=0为正确分类,
ξ
i
\xi_i
ξi越大错分越严重),优化问题调整为:
min
w
,
b
,
ξ
1
2
∥
w
∥
2
+
C
∑
i
=
1
N
ξ
i
s.t.
y
i
(
w
T
x
i
+
b
)
≥
1
−
ξ
i
(
i
=
1
,
.
.
.
,
N
)
ξ
i
≥
0
(
i
=
1
,
.
.
.
,
N
)
\min_{\boldsymbol{w}, b, \xi} \quad \frac{1}{2}\|\boldsymbol{w}\|^2 + C \sum_{i=1}^N \xi_i \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i \quad (i=1,...,N) \\ \quad \xi_i \geq 0 \quad (i=1,...,N)
w,b,ξmin21∥w∥2+Ci=1∑Nξis.t.yi(wTxi+b)≥1−ξi(i=1,...,N)ξi≥0(i=1,...,N)
- C > 0 C > 0 C>0:惩罚参数,平衡“最大间隔”与“最小错分”。 C C C越大,对错误分类的惩罚越重(更倾向于少错分,可能牺牲间隔); C C C越小,对错误分类的惩罚越轻(更倾向于大间隔,可能多错分)。
1.2.2 对偶问题与核函数衔接
软间隔SVM的对偶问题与硬间隔类似,仅约束条件略有调整:
max
α
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
x
i
T
x
j
s.t.
∑
i
=
1
N
α
i
y
i
=
0
,
0
≤
α
i
≤
C
(
i
=
1
,
.
.
.
,
N
)
\max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C \quad (i=1,...,N)
αmaxi=1∑Nαi−21i=1∑Nj=1∑NαiαjyiyjxiTxjs.t.i=1∑Nαiyi=0,0≤αi≤C(i=1,...,N)
关键观察:对偶问题中仅包含样本的内积
x
i
T
x
j
\boldsymbol{x}_i^T \boldsymbol{x}_j
xiTxj,这为后续核方法的引入埋下伏笔——若将样本映射到高维空间,只需替换内积为高维空间的内积即可。
二、SVM与核方法
当样本在低维空间非线性可分时,核心思路是将其映射到高维空间,使高维空间中样本线性可分,再用SVM求解。但直接映射会面临“维数灾难”(高维空间计算复杂度激增),核方法通过“核技巧”解决了这一问题。
2.1 核方法的核心思想:高维映射与核技巧
2.1.1 低维非线性→高维线性
定义映射函数
ϕ
:
R
d
→
R
D
\phi: \mathbb{R}^d \to \mathbb{R}^D
ϕ:Rd→RD(
D
≫
d
D \gg d
D≫d),将低维样本
x
\boldsymbol{x}
x映射为高维样本
ϕ
(
x
)
\phi(\boldsymbol{x})
ϕ(x)。若高维空间中
ϕ
(
x
i
)
\phi(\boldsymbol{x}_i)
ϕ(xi)线性可分,则可在高维空间构造SVM超平面:
w
T
ϕ
(
x
)
+
b
=
0
\boldsymbol{w}^T \phi(\boldsymbol{x}) + b = 0
wTϕ(x)+b=0
此时高维空间SVM的对偶问题为:
max
α
∑
i
=
1
N
α
i
−
1
2
∑
i
=
1
N
∑
j
=
1
N
α
i
α
j
y
i
y
j
⋅
ϕ
(
x
i
)
T
ϕ
(
x
j
)
s.t.
∑
i
=
1
N
α
i
y
i
=
0
,
0
≤
α
i
≤
C
\max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \cdot \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C
αmaxi=1∑Nαi−21i=1∑Nj=1∑Nαiαjyiyj⋅ϕ(xi)Tϕ(xj)s.t.i=1∑Nαiyi=0,0≤αi≤C
问题:直接计算
ϕ
(
x
i
)
T
ϕ
(
x
j
)
\phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j)
ϕ(xi)Tϕ(xj)需先显式构造
ϕ
(
⋅
)
\phi(\cdot)
ϕ(⋅),当
D
D
D极大(如
D
=
∞
D=\infty
D=∞)时,计算不可行。
2.1.2 核技巧:替代高维内积
核函数的定义:若存在映射
ϕ
\phi
ϕ,使得对任意低维样本
x
i
,
x
j
\boldsymbol{x}_i, \boldsymbol{x}_j
xi,xj,均有:
K
(
x
i
,
x
j
)
=
ϕ
(
x
i
)
T
ϕ
(
x
j
)
K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j)
K(xi,xj)=ϕ(xi)Tϕ(xj)
则
K
(
⋅
,
⋅
)
K(\cdot, \cdot)
K(⋅,⋅)称为核函数。
核心价值(核技巧):无需显式构造 ϕ ( ⋅ ) \phi(\cdot) ϕ(⋅),只需直接计算低维样本的核函数 K ( x i , x j ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) K(xi,xj),即可等价替代高维空间的内积 ϕ ( x i ) T ϕ ( x j ) \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) ϕ(xi)Tϕ(xj)。这避免了高维空间的直接计算,大幅降低复杂度。
2.2 核函数的 Mercer 条件
并非所有函数都能作为核函数,核函数需满足Mercer条件(保证映射 ϕ \phi ϕ存在,且高维内积正定):
对任意非零函数
f
(
x
)
f(\boldsymbol{x})
f(x)(满足
∫
f
(
x
)
2
d
x
<
∞
\int f(\boldsymbol{x})^2 d\boldsymbol{x} < \infty
∫f(x)2dx<∞),若核函数
K
(
x
,
z
)
K(\boldsymbol{x}, \boldsymbol{z})
K(x,z)在定义域上连续且对称,则:
∬
K
(
x
,
z
)
f
(
x
)
f
(
z
)
d
x
d
z
≥
0
\iint K(\boldsymbol{x}, \boldsymbol{z}) f(\boldsymbol{x}) f(\boldsymbol{z}) d\boldsymbol{x} d\boldsymbol{z} \geq 0
∬K(x,z)f(x)f(z)dxdz≥0
直观理解:Mercer条件确保核函数对应的“Gram矩阵”(
G
i
j
=
K
(
x
i
,
x
j
)
G_{ij}=K(\boldsymbol{x}_i, \boldsymbol{x}_j)
Gij=K(xi,xj))是半正定矩阵,保证SVM对偶问题有解。
2.3 常见核函数及应用场景
实际应用中无需自行构造核函数,可直接选用经典核函数,以下为4类常用核函数:
| 核函数类型 | 数学表达式 | 关键参数 | 适用场景 |
|---|---|---|---|
| 线性核 | K ( x i , x j ) = x i T x j + b K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \boldsymbol{x}_i^T \boldsymbol{x}_j + b K(xi,xj)=xiTxj+b | b b b(常数项,通常取0或1) | 低维线性可分数据,或高维数据(如文本分类) |
| 多项式核 | K ( x i , x j ) = ( γ x i T x j + b ) d K(\boldsymbol{x}_i, \boldsymbol{x}_j) = (\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b)^d K(xi,xj)=(γxiTxj+b)d | γ > 0 \gamma>0 γ>0(缩放因子)、 b b b(常数项)、 d d d(多项式次数) | 样本呈多项式分布的非线性问题(如图像局部特征分类) |
| 径向基核(RBF) | K ( x i , x j ) = exp ( − γ ∣ x i − x j ∣ 2 ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \exp(-\gamma |\boldsymbol{x}_i - \boldsymbol{x}_j|^2) K(xi,xj)=exp(−γ∣xi−xj∣2) | γ > 0 \gamma>0 γ>0(控制核函数衰减速度) | 绝大多数非线性场景(如人脸识别、异常检测),适用性最广 |
| Sigmoid核 | K ( x i , x j ) = tanh ( γ x i T x j + b ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \tanh(\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b) K(xi,xj)=tanh(γxiTxj+b) | γ > 0 \gamma>0 γ>0、 b b b(通常取0) | 模拟神经网络激活函数,适用于非线性分类(如小样本学习) |
2.4 核SVM的分类决策函数
将核函数代入SVM对偶问题,求解得到
α
∗
\alpha^*
α∗和
b
∗
b^*
b∗后,最终的分类决策函数为:
f
(
x
)
=
sign
(
∑
i
=
1
N
α
i
∗
y
i
K
(
x
i
,
x
)
+
b
∗
)
f(\boldsymbol{x}) = \text{sign}\left( \sum_{i=1}^N \alpha_i^* y_i K(\boldsymbol{x}_i, \boldsymbol{x}) + b^* \right)
f(x)=sign(i=1∑Nαi∗yiK(xi,x)+b∗)
- 仅支持向量( α i ∗ > 0 \alpha_i^* > 0 αi∗>0)参与决策,非支持向量无贡献;
- 决策过程仅需计算测试样本 x \boldsymbol{x} x与训练支持向量的核函数,计算效率高。
三、SVM的进一步解释:结构风险最小化
传统机器学习模型(如最小二乘法)常追求“经验风险最小化”(即训练误差最小),但易导致过拟合。SVM的“最大间隔”思想本质是结构风险最小化(Structural Risk Minimization, SRM),可有效平衡训练误差与模型泛化能力。
3.1 风险的三种形式
在统计学习理论中,模型的“风险”(预测误差)分为三类:
-
经验风险( R e m p R_{emp} Remp):模型在训练集上的误差,反映模型对训练数据的拟合程度。
- 例如:软间隔SVM中, ∑ i = 1 N ξ i \sum_{i=1}^N \xi_i ∑i=1Nξi可视为经验风险(错分样本的总程度)。
-
期望风险( R ( f ) R(f) R(f)):模型在所有可能样本上的真实误差,是模型泛化能力的本质衡量标准。
- 期望风险无法直接计算,需通过经验风险和模型复杂度间接控制。
-
结构风险( R s t r u c t R_{struct} Rstruct):经验风险与模型复杂度的加权和,即:
R s t r u c t = R e m p + λ ⋅ Ω ( f ) R_{struct} = R_{emp} + \lambda \cdot \Omega(f) Rstruct=Remp+λ⋅Ω(f)
其中 Ω ( f ) \Omega(f) Ω(f)是模型复杂度的度量( Ω ( f ) \Omega(f) Ω(f)越大,模型越复杂), λ > 0 \lambda>0 λ>0是平衡系数。
3.2 结构风险最小化的核心逻辑
SRM的目标是最小化结构风险,而非单纯最小化经验风险。其核心逻辑是:
- 模型复杂度 Ω ( f ) \Omega(f) Ω(f)越大,过拟合风险越高(即使经验风险小,期望风险也可能大);
- 需在“经验风险小”(拟合训练数据)和“模型复杂度低”(避免过拟合)之间找到最优平衡。
3.3 SVM如何实现结构风险最小化
SVM的优化目标与结构风险最小化高度契合,具体对应关系如下:
| 结构风险组成 | SVM中的对应项 | 作用说明 |
|---|---|---|
| 经验风险( R e m p R_{emp} Remp) | 软间隔SVM中的 ∑ i = 1 N ξ i \sum_{i=1}^N \xi_i ∑i=1Nξi | 控制模型在训练集上的错分程度, ∑ ξ i \sum \xi_i ∑ξi越小,经验风险越低 |
| 模型复杂度( Ω ( f ) \Omega(f) Ω(f)) | SVM中的 1 2 ∣ w ∣ 2 \frac{1}{2}|\boldsymbol{w}|^2 21∣w∣2 | 反映模型的“复杂度”: ∣ w ∣ |\boldsymbol{w}| ∣w∣越小,超平面间隔越大,模型复杂度越低(泛化能力越强) |
| 平衡系数( λ \lambda λ) | 软间隔SVM中的 1 C \frac{1}{C} C1 | C C C越大, λ \lambda λ越小,对经验风险的惩罚越重(优先保证少错分); C C C越小, λ \lambda λ越大,对模型复杂度的惩罚越重(优先保证大间隔) |
关键结论:最大间隔=低模型复杂度
SVM的“最大间隔”等价于最小化 ∥ w ∥ 2 \|\boldsymbol{w}\|^2 ∥w∥2,而 ∥ w ∥ 2 \|\boldsymbol{w}\|^2 ∥w∥2是模型复杂度的度量。因此:
- 间隔越大,模型复杂度越低,过拟合风险越小;
- 软间隔SVM通过 C C C平衡“经验风险(错分)”与“模型复杂度(间隔)”,最终实现结构风险最小化,保证强泛化能力。
3.4 经验风险最小化 vs 结构风险最小化
通过对比两种风险最小化策略,可更清晰理解SVM的优势:
| 对比维度 | 经验风险最小化(ERM) | 结构风险最小化(SRM) |
|---|---|---|
| 目标 | 最小化训练误差 | 最小化“训练误差+模型复杂度” |
| 核心问题 | 易过拟合(训练误差小,测试误差大) | 平衡拟合与泛化,降低过拟合风险 |
| 典型例子 | 最小二乘法、决策树(未剪枝) | SVM、正则化逻辑回归 |
| 对SVM的适配性 | 不适用(硬间隔SVM经验风险为0,但需控制复杂度) | 完全适配(最大间隔对应低复杂度,软间隔平衡风险) |
总结
本文围绕核方法展开,以SVM为核心载体,层层递进解析了三大核心内容:
- SVM的本质是寻找最大间隔超平面,通过硬/软间隔处理线性可分/不可分问题,对偶问题的内积形式为核方法铺垫;
- 核方法通过“核技巧”替代高维内积,解决低维非线性问题的同时避免维数灾难,RBF核是最通用的选择;
- SVM的最大间隔思想对应结构风险最小化,平衡经验风险与模型复杂度,是其强泛化能力的理论基础。
核方法不仅适用于SVM,还可扩展到PCA、K-means等模型,是机器学习中处理非线性问题的通用工具。理解核技巧的本质与结构风险最小化理论,对掌握后续复杂模型(如核岭回归、核主成分分析)至关重要。
1万+

被折叠的 条评论
为什么被折叠?



