模式识别与机器学习课程笔记(5):核方法

模式识别与机器学习课程笔记(5):核方法

引言

核方法是解决非线性分类与回归问题的核心技术,其本质是通过“核技巧”(Kernel Trick)将低维非线性可分数据映射到高维线性可分空间,同时避免直接计算高维空间的复杂内积运算。支持向量机(SVM)是核方法最经典的应用场景,而SVM的“最大间隔”思想又与“结构风险最小化”理论深度绑定,共同保证了模型的强泛化能力。本文将从SVM的基础原理出发,逐步解析核方法的核心逻辑,最终通过结构风险最小化理论解释SVM的泛化优势。

一、支持向量机(SVM)

支持向量机(SVM)的核心目标是在特征空间中找到最大间隔超平面,实现对样本的分类。根据样本是否线性可分,SVM可分为“硬间隔SVM”(线性可分)和“软间隔SVM”(线性不可分)两类,二者均通过优化问题推导超平面参数。

1.1 硬间隔SVM:线性可分场景

当样本在低维特征空间中可被某一超平面完全分开(无错分样本)时,硬间隔SVM的目标是找到“离两类样本最远”的超平面——即最大间隔超平面。

1.1.1 超平面与间隔定义

设低维特征空间为 R d \mathbb{R}^d Rd,样本 x ∈ R d \boldsymbol{x} \in \mathbb{R}^d xRd,线性超平面的方程为:
w T x + b = 0 \boldsymbol{w}^T \boldsymbol{x} + b = 0 wTx+b=0
其中 w ∈ R d \boldsymbol{w} \in \mathbb{R}^d wRd是超平面法向量(决定超平面方向), b b b是阈值(决定超平面位置)。

为量化“间隔”,定义两类样本到超平面的距离:

  • 函数间隔:对样本 ( x i , y i ) (\boldsymbol{x}_i, y_i) (xi,yi) y i ∈ { + 1 , − 1 } y_i \in \{+1, -1\} yi{+1,1}为类别标记),函数间隔为 γ ^ i = y i ( w T x i + b ) \hat{\gamma}_i = y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) γ^i=yi(wTxi+b)。函数间隔与 w \boldsymbol{w} w b b b的缩放相关(如 w → 2 w \boldsymbol{w} \to 2\boldsymbol{w} w2w b → 2 b b \to 2b b2b,间隔翻倍),无法直接反映真实距离。
  • 几何间隔:对样本 ( x i , y i ) (\boldsymbol{x}_i, y_i) (xi,yi),几何间隔为 γ i = γ ^ i ∥ w ∥ \gamma_i = \frac{\hat{\gamma}_i}{\|\boldsymbol{w}\|} γi=wγ^i,表示样本到超平面的垂直距离(与 w \boldsymbol{w} w b b b缩放无关,是真实距离)。

两类样本的“最小几何间隔”为 γ = min ⁡ i = 1 , . . . , N γ i \gamma = \min_{i=1,...,N} \gamma_i γ=mini=1,...,Nγi,硬间隔SVM的目标是最大化 γ \gamma γ

1.1.2 优化问题构建

最大化几何间隔 γ \gamma γ等价于在“所有样本几何间隔≥ γ \gamma γ”的约束下,最小化 ∥ w ∥ \|\boldsymbol{w}\| w(因 γ = γ ^ ∥ w ∥ \gamma = \frac{\hat{\gamma}}{\|\boldsymbol{w}\|} γ=wγ^,固定 γ ^ = 1 \hat{\gamma}=1 γ^=1时, γ \gamma γ 1 ∥ w ∥ \frac{1}{\|\boldsymbol{w}\|} w1成正比)。最终优化问题为:
min ⁡ w , b 1 2 ∥ w ∥ 2 s.t. y i ( w T x i + b ) ≥ 1 ( i = 1 , 2 , . . . , N ) \min_{\boldsymbol{w}, b} \quad \frac{1}{2} \|\boldsymbol{w}\|^2 \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 \quad (i=1,2,...,N) w,bmin21w2s.t.yi(wTxi+b)1(i=1,2,...,N)

  • 目标函数 1 2 ∥ w ∥ 2 \frac{1}{2}\|\boldsymbol{w}\|^2 21w2:为简化求导,用平方范数替代范数;
  • 约束条件:确保所有样本的函数间隔≥1,即几何间隔≥ 1 ∥ w ∥ \frac{1}{\|\boldsymbol{w}\|} w1
1.1.3 对偶问题与支持向量

上述优化问题是凸二次规划问题,可通过拉格朗日乘数法转化为对偶问题,简化求解。

  1. 构造拉格朗日函数:
    引入拉格朗日乘数 α i ≥ 0 \alpha_i \geq 0 αi0(对应每个样本的约束),拉格朗日函数为:
    L ( w , b , α ) = 1 2 ∥ w ∥ 2 − ∑ i = 1 N α i [ y i ( w T x i + b ) − 1 ] L(\boldsymbol{w}, b, \alpha) = \frac{1}{2}\|\boldsymbol{w}\|^2 - \sum_{i=1}^N \alpha_i [y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) - 1] L(w,b,α)=21w2i=1Nαi[yi(wTxi+b)1]

  2. 求解对偶问题:
    w \boldsymbol{w} w b b b求偏导并令其为0,可得:

    • ∂ L ∂ w = w − ∑ i = 1 N α i y i x i = 0    ⟹    w = ∑ i = 1 N α i y i x i \frac{\partial L}{\partial \boldsymbol{w}} = \boldsymbol{w} - \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i = 0 \implies \boldsymbol{w} = \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i wL=wi=1Nαiyixi=0w=i=1Nαiyixi
    • ∂ L ∂ b = − ∑ i = 1 N α i y i = 0    ⟹    ∑ i = 1 N α i y i = 0 \frac{\partial L}{\partial b} = -\sum_{i=1}^N \alpha_i y_i = 0 \implies \sum_{i=1}^N \alpha_i y_i = 0 bL=i=1Nαiyi=0i=1Nαiyi=0

    将上述结果代入拉格朗日函数,得到对偶问题:
    max ⁡ α ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j s.t. ∑ i = 1 N α i y i = 0 , α i ≥ 0 ( i = 1 , . . . , N ) \max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad \alpha_i \geq 0 \quad (i=1,...,N) αmaxi=1Nαi21i=1Nj=1NαiαjyiyjxiTxjs.t.i=1Nαiyi=0,αi0(i=1,...,N)

  3. 支持向量的定义:
    对偶问题求解后,多数 α i = 0 \alpha_i = 0 αi=0,仅少数 α i > 0 \alpha_i > 0 αi>0的样本对应 α i > 0 \alpha_i > 0 αi>0,这些样本称为支持向量(Support Vectors)。

    • 支持向量满足 y i ( w T x i + b ) = 1 y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) = 1 yi(wTxi+b)=1,即位于“间隔边界”上;
    • 超平面仅由支持向量决定,非支持向量对超平面无影响(因 α i = 0 \alpha_i=0 αi=0,不参与 w \boldsymbol{w} w的计算)。

1.2 软间隔SVM:线性不可分场景

实际数据常存在噪声或重叠,无法用硬间隔SVM完全分开,此时需引入松弛变量允许少量样本错分,即软间隔SVM。

1.2.1 优化问题修正

引入松弛变量 ξ i ≥ 0 \xi_i \geq 0 ξi0(表示第 i i i个样本的错分程度: ξ i = 0 \xi_i=0 ξi=0为正确分类, ξ i \xi_i ξi越大错分越严重),优化问题调整为:
min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i s.t. y i ( w T x i + b ) ≥ 1 − ξ i ( i = 1 , . . . , N ) ξ i ≥ 0 ( i = 1 , . . . , N ) \min_{\boldsymbol{w}, b, \xi} \quad \frac{1}{2}\|\boldsymbol{w}\|^2 + C \sum_{i=1}^N \xi_i \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i \quad (i=1,...,N) \\ \quad \xi_i \geq 0 \quad (i=1,...,N) w,b,ξmin21w2+Ci=1Nξis.t.yi(wTxi+b)1ξi(i=1,...,N)ξi0(i=1,...,N)

  • C > 0 C > 0 C>0:惩罚参数,平衡“最大间隔”与“最小错分”。 C C C越大,对错误分类的惩罚越重(更倾向于少错分,可能牺牲间隔); C C C越小,对错误分类的惩罚越轻(更倾向于大间隔,可能多错分)。
1.2.2 对偶问题与核函数衔接

软间隔SVM的对偶问题与硬间隔类似,仅约束条件略有调整:
max ⁡ α ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j s.t. ∑ i = 1 N α i y i = 0 , 0 ≤ α i ≤ C ( i = 1 , . . . , N ) \max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C \quad (i=1,...,N) αmaxi=1Nαi21i=1Nj=1NαiαjyiyjxiTxjs.t.i=1Nαiyi=0,0αiC(i=1,...,N)
关键观察:对偶问题中仅包含样本的内积 x i T x j \boldsymbol{x}_i^T \boldsymbol{x}_j xiTxj,这为后续核方法的引入埋下伏笔——若将样本映射到高维空间,只需替换内积为高维空间的内积即可。

二、SVM与核方法

当样本在低维空间非线性可分时,核心思路是将其映射到高维空间,使高维空间中样本线性可分,再用SVM求解。但直接映射会面临“维数灾难”(高维空间计算复杂度激增),核方法通过“核技巧”解决了这一问题。

2.1 核方法的核心思想:高维映射与核技巧

2.1.1 低维非线性→高维线性

定义映射函数 ϕ : R d → R D \phi: \mathbb{R}^d \to \mathbb{R}^D ϕ:RdRD D ≫ d D \gg d Dd),将低维样本 x \boldsymbol{x} x映射为高维样本 ϕ ( x ) \phi(\boldsymbol{x}) ϕ(x)。若高维空间中 ϕ ( x i ) \phi(\boldsymbol{x}_i) ϕ(xi)线性可分,则可在高维空间构造SVM超平面:
w T ϕ ( x ) + b = 0 \boldsymbol{w}^T \phi(\boldsymbol{x}) + b = 0 wTϕ(x)+b=0
此时高维空间SVM的对偶问题为:
max ⁡ α ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j ⋅ ϕ ( x i ) T ϕ ( x j ) s.t. ∑ i = 1 N α i y i = 0 , 0 ≤ α i ≤ C \max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \cdot \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C αmaxi=1Nαi21i=1Nj=1Nαiαjyiyjϕ(xi)Tϕ(xj)s.t.i=1Nαiyi=0,0αiC
问题:直接计算 ϕ ( x i ) T ϕ ( x j ) \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) ϕ(xi)Tϕ(xj)需先显式构造 ϕ ( ⋅ ) \phi(\cdot) ϕ(),当 D D D极大(如 D = ∞ D=\infty D=)时,计算不可行。

2.1.2 核技巧:替代高维内积

核函数的定义:若存在映射 ϕ \phi ϕ,使得对任意低维样本 x i , x j \boldsymbol{x}_i, \boldsymbol{x}_j xi,xj,均有:
K ( x i , x j ) = ϕ ( x i ) T ϕ ( x j ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) K(xi,xj)=ϕ(xi)Tϕ(xj)
K ( ⋅ , ⋅ ) K(\cdot, \cdot) K(,)称为核函数。

核心价值(核技巧):无需显式构造 ϕ ( ⋅ ) \phi(\cdot) ϕ(),只需直接计算低维样本的核函数 K ( x i , x j ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) K(xi,xj),即可等价替代高维空间的内积 ϕ ( x i ) T ϕ ( x j ) \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) ϕ(xi)Tϕ(xj)。这避免了高维空间的直接计算,大幅降低复杂度。

2.2 核函数的 Mercer 条件

并非所有函数都能作为核函数,核函数需满足Mercer条件(保证映射 ϕ \phi ϕ存在,且高维内积正定):

对任意非零函数 f ( x ) f(\boldsymbol{x}) f(x)(满足 ∫ f ( x ) 2 d x < ∞ \int f(\boldsymbol{x})^2 d\boldsymbol{x} < \infty f(x)2dx<),若核函数 K ( x , z ) K(\boldsymbol{x}, \boldsymbol{z}) K(x,z)在定义域上连续且对称,则:
∬ K ( x , z ) f ( x ) f ( z ) d x d z ≥ 0 \iint K(\boldsymbol{x}, \boldsymbol{z}) f(\boldsymbol{x}) f(\boldsymbol{z}) d\boldsymbol{x} d\boldsymbol{z} \geq 0 K(x,z)f(x)f(z)dxdz0
直观理解:Mercer条件确保核函数对应的“Gram矩阵”( G i j = K ( x i , x j ) G_{ij}=K(\boldsymbol{x}_i, \boldsymbol{x}_j) Gij=K(xi,xj))是半正定矩阵,保证SVM对偶问题有解。

2.3 常见核函数及应用场景

实际应用中无需自行构造核函数,可直接选用经典核函数,以下为4类常用核函数:

核函数类型数学表达式关键参数适用场景
线性核 K ( x i , x j ) = x i T x j + b K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \boldsymbol{x}_i^T \boldsymbol{x}_j + b K(xi,xj)=xiTxj+b b b b(常数项,通常取0或1)低维线性可分数据,或高维数据(如文本分类)
多项式核 K ( x i , x j ) = ( γ x i T x j + b ) d K(\boldsymbol{x}_i, \boldsymbol{x}_j) = (\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b)^d K(xi,xj)=(γxiTxj+b)d γ > 0 \gamma>0 γ>0(缩放因子)、 b b b(常数项)、 d d d(多项式次数)样本呈多项式分布的非线性问题(如图像局部特征分类)
径向基核(RBF) K ( x i , x j ) = exp ⁡ ( − γ ∣ x i − x j ∣ 2 ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \exp(-\gamma |\boldsymbol{x}_i - \boldsymbol{x}_j|^2) K(xi,xj)=exp(γxixj2) γ > 0 \gamma>0 γ>0(控制核函数衰减速度)绝大多数非线性场景(如人脸识别、异常检测),适用性最广
Sigmoid核 K ( x i , x j ) = tanh ⁡ ( γ x i T x j + b ) K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \tanh(\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b) K(xi,xj)=tanh(γxiTxj+b) γ > 0 \gamma>0 γ>0 b b b(通常取0)模拟神经网络激活函数,适用于非线性分类(如小样本学习)

2.4 核SVM的分类决策函数

将核函数代入SVM对偶问题,求解得到 α ∗ \alpha^* α b ∗ b^* b后,最终的分类决策函数为:
f ( x ) = sign ( ∑ i = 1 N α i ∗ y i K ( x i , x ) + b ∗ ) f(\boldsymbol{x}) = \text{sign}\left( \sum_{i=1}^N \alpha_i^* y_i K(\boldsymbol{x}_i, \boldsymbol{x}) + b^* \right) f(x)=sign(i=1NαiyiK(xi,x)+b)

  • 仅支持向量( α i ∗ > 0 \alpha_i^* > 0 αi>0)参与决策,非支持向量无贡献;
  • 决策过程仅需计算测试样本 x \boldsymbol{x} x与训练支持向量的核函数,计算效率高。

三、SVM的进一步解释:结构风险最小化

传统机器学习模型(如最小二乘法)常追求“经验风险最小化”(即训练误差最小),但易导致过拟合。SVM的“最大间隔”思想本质是结构风险最小化(Structural Risk Minimization, SRM),可有效平衡训练误差与模型泛化能力。

3.1 风险的三种形式

在统计学习理论中,模型的“风险”(预测误差)分为三类:

  1. 经验风险( R e m p R_{emp} Remp:模型在训练集上的误差,反映模型对训练数据的拟合程度。

    • 例如:软间隔SVM中, ∑ i = 1 N ξ i \sum_{i=1}^N \xi_i i=1Nξi可视为经验风险(错分样本的总程度)。
  2. 期望风险( R ( f ) R(f) R(f):模型在所有可能样本上的真实误差,是模型泛化能力的本质衡量标准。

    • 期望风险无法直接计算,需通过经验风险和模型复杂度间接控制。
  3. 结构风险( R s t r u c t R_{struct} Rstruct:经验风险与模型复杂度的加权和,即:
    R s t r u c t = R e m p + λ ⋅ Ω ( f ) R_{struct} = R_{emp} + \lambda \cdot \Omega(f) Rstruct=Remp+λΩ(f)
    其中 Ω ( f ) \Omega(f) Ω(f)是模型复杂度的度量( Ω ( f ) \Omega(f) Ω(f)越大,模型越复杂), λ > 0 \lambda>0 λ>0是平衡系数。

3.2 结构风险最小化的核心逻辑

SRM的目标是最小化结构风险,而非单纯最小化经验风险。其核心逻辑是:

  • 模型复杂度 Ω ( f ) \Omega(f) Ω(f)越大,过拟合风险越高(即使经验风险小,期望风险也可能大);
  • 需在“经验风险小”(拟合训练数据)和“模型复杂度低”(避免过拟合)之间找到最优平衡。

3.3 SVM如何实现结构风险最小化

SVM的优化目标与结构风险最小化高度契合,具体对应关系如下:

结构风险组成SVM中的对应项作用说明
经验风险( R e m p R_{emp} Remp软间隔SVM中的 ∑ i = 1 N ξ i \sum_{i=1}^N \xi_i i=1Nξi控制模型在训练集上的错分程度, ∑ ξ i \sum \xi_i ξi越小,经验风险越低
模型复杂度( Ω ( f ) \Omega(f) Ω(f)SVM中的 1 2 ∣ w ∣ 2 \frac{1}{2}|\boldsymbol{w}|^2 21w2反映模型的“复杂度”: ∣ w ∣ |\boldsymbol{w}| w越小,超平面间隔越大,模型复杂度越低(泛化能力越强)
平衡系数( λ \lambda λ软间隔SVM中的 1 C \frac{1}{C} C1 C C C越大, λ \lambda λ越小,对经验风险的惩罚越重(优先保证少错分); C C C越小, λ \lambda λ越大,对模型复杂度的惩罚越重(优先保证大间隔)
关键结论:最大间隔=低模型复杂度

SVM的“最大间隔”等价于最小化 ∥ w ∥ 2 \|\boldsymbol{w}\|^2 w2,而 ∥ w ∥ 2 \|\boldsymbol{w}\|^2 w2是模型复杂度的度量。因此:

  • 间隔越大,模型复杂度越低,过拟合风险越小;
  • 软间隔SVM通过 C C C平衡“经验风险(错分)”与“模型复杂度(间隔)”,最终实现结构风险最小化,保证强泛化能力。

3.4 经验风险最小化 vs 结构风险最小化

通过对比两种风险最小化策略,可更清晰理解SVM的优势:

对比维度经验风险最小化(ERM)结构风险最小化(SRM)
目标最小化训练误差最小化“训练误差+模型复杂度”
核心问题易过拟合(训练误差小,测试误差大)平衡拟合与泛化,降低过拟合风险
典型例子最小二乘法、决策树(未剪枝)SVM、正则化逻辑回归
对SVM的适配性不适用(硬间隔SVM经验风险为0,但需控制复杂度)完全适配(最大间隔对应低复杂度,软间隔平衡风险)

总结

本文围绕核方法展开,以SVM为核心载体,层层递进解析了三大核心内容:

  1. SVM的本质是寻找最大间隔超平面,通过硬/软间隔处理线性可分/不可分问题,对偶问题的内积形式为核方法铺垫;
  2. 核方法通过“核技巧”替代高维内积,解决低维非线性问题的同时避免维数灾难,RBF核是最通用的选择;
  3. SVM的最大间隔思想对应结构风险最小化,平衡经验风险与模型复杂度,是其强泛化能力的理论基础。

核方法不仅适用于SVM,还可扩展到PCA、K-means等模型,是机器学习中处理非线性问题的通用工具。理解核技巧的本质与结构风险最小化理论,对掌握后续复杂模型(如核岭回归、核主成分分析)至关重要。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BetterInsight

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值