模式识别与机器学习课程笔记（5）：核方法

最新推荐文章于 2025-11-25 12:03:11 发布

原创最新推荐文章于 2025-11-25 12:03:11 发布 · 1.6k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #笔记 #支持向量机

专业知识学习专栏收录该内容

42 篇文章

订阅专栏

模式识别与机器学习课程笔记（5）：核方法

文章目录

模式识别与机器学习课程笔记（5）：核方法

引言

核方法是解决非线性分类与回归问题的核心技术，其本质是通过“核技巧”（Kernel Trick）将低维非线性可分数据映射到高维线性可分空间，同时避免直接计算高维空间的复杂内积运算。支持向量机（SVM）是核方法最经典的应用场景，而SVM的“最大间隔”思想又与“结构风险最小化”理论深度绑定，共同保证了模型的强泛化能力。本文将从SVM的基础原理出发，逐步解析核方法的核心逻辑，最终通过结构风险最小化理论解释SVM的泛化优势。

一、支持向量机（SVM）

支持向量机（SVM）的核心目标是在特征空间中找到最大间隔超平面，实现对样本的分类。根据样本是否线性可分，SVM可分为“硬间隔SVM”（线性可分）和“软间隔SVM”（线性不可分）两类，二者均通过优化问题推导超平面参数。

1.1 硬间隔SVM：线性可分场景

当样本在低维特征空间中可被某一超平面完全分开（无错分样本）时，硬间隔SVM的目标是找到“离两类样本最远”的超平面——即最大间隔超平面。

1.1.1 超平面与间隔定义

设低维特征空间为 $\mathbb{R}^d$ ，样本 $\boldsymbol{x} \in \mathbb{R}^d$ ，线性超平面的方程为：
$\boldsymbol{w}^T \boldsymbol{x} + b = 0$
其中 $\boldsymbol{w} \in \mathbb{R}^d$ 是超平面法向量（决定超平面方向）， $b$ 是阈值（决定超平面位置）。

为量化“间隔”，定义两类样本到超平面的距离：

函数间隔：对样本 $(\boldsymbol{x}_i, y_i)$ （ $y_i \in \{+1, -1\}$ 为类别标记），函数间隔为 $\hat{\gamma}_i = y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b)$ 。函数间隔与 $\boldsymbol{w}$ 、 $b$ 的缩放相关（如 $\boldsymbol{w} \to 2\boldsymbol{w}$ ， $\to 2b$ ，间隔翻倍），无法直接反映真实距离。
几何间隔：对样本 $(\boldsymbol{x}_i, y_i)$ ，几何间隔为 $\gamma_i = \frac{\hat{\gamma}_i}{\|\boldsymbol{w}\|}$ ，表示样本到超平面的垂直距离（与 $\boldsymbol{w}$ 、 $b$ 缩放无关，是真实距离）。

两类样本的“最小几何间隔”为 $\gamma = \min_{i=1,...,N} \gamma_i$ ，硬间隔SVM的目标是最大化 $\gamma$ 。

1.1.2 优化问题构建

最大化几何间隔 $\gamma$ 等价于在“所有样本几何间隔≥ $\gamma$ ”的约束下，最小化 $\|\boldsymbol{w}\|$ （因 $\gamma = \frac{\hat{\gamma}}{\|\boldsymbol{w}\|}$ ，固定 $\hat{\gamma}=1$ 时， $\gamma$ 与 $\frac{1}{\|\boldsymbol{w}\|}$ 成正比）。最终优化问题为：
$\min_{\boldsymbol{w}, b} \quad \frac{1}{2} \|\boldsymbol{w}\|^2 \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 \quad (i=1,2,...,N)$

目标函数 $\frac{1}{2}\|\boldsymbol{w}\|^2$ ：为简化求导，用平方范数替代范数；
约束条件：确保所有样本的函数间隔≥1，即几何间隔≥ $\frac{1}{\|\boldsymbol{w}\|}$ 。

1.1.3 对偶问题与支持向量

上述优化问题是凸二次规划问题，可通过拉格朗日乘数法转化为对偶问题，简化求解。

构造拉格朗日函数：
引入拉格朗日乘数 $\alpha_i \geq 0$ （对应每个样本的约束），拉格朗日函数为：
$L(\boldsymbol{w}, b, \alpha) = \frac{1}{2}\|\boldsymbol{w}\|^2 - \sum_{i=1}^N \alpha_i [y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) - 1]$
求解对偶问题：
对 $\boldsymbol{w}$ 和 $b$ 求偏导并令其为0，可得：
- $\frac{\partial L}{\partial \boldsymbol{w}} = \boldsymbol{w} - \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i = 0 \implies \boldsymbol{w} = \sum_{i=1}^N \alpha_i y_i \boldsymbol{x}_i$
- $\frac{\partial L}{\partial b} = -\sum_{i=1}^N \alpha_i y_i = 0 \implies \sum_{i=1}^N \alpha_i y_i = 0$
将上述结果代入拉格朗日函数，得到对偶问题：
$\max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad \alpha_i \geq 0 \quad (i=1,...,N)$
支持向量的定义：
对偶问题求解后，多数 $\alpha_i = 0$ ，仅少数 $\alpha_i > 0$ 的样本对应 $\alpha_i > 0$ ，这些样本称为支持向量（Support Vectors）。
- 支持向量满足 $y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) = 1$ ，即位于“间隔边界”上；
- 超平面仅由支持向量决定，非支持向量对超平面无影响（因 $\alpha_i=0$ ，不参与 $\boldsymbol{w}$ 的计算）。

1.2 软间隔SVM：线性不可分场景

实际数据常存在噪声或重叠，无法用硬间隔SVM完全分开，此时需引入松弛变量允许少量样本错分，即软间隔SVM。

1.2.1 优化问题修正

引入松弛变量 $\xi_i \geq 0$ （表示第 $i$ 个样本的错分程度： $\xi_i=0$ 为正确分类， $\xi_i$ 越大错分越严重），优化问题调整为：
$\min_{\boldsymbol{w}, b, \xi} \quad \frac{1}{2}\|\boldsymbol{w}\|^2 + C \sum_{i=1}^N \xi_i \\ \text{s.t.} \quad y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i \quad (i=1,...,N) \\ \quad \xi_i \geq 0 \quad (i=1,...,N)$

$C > 0$ ：惩罚参数，平衡“最大间隔”与“最小错分”。 $C$ 越大，对错误分类的惩罚越重（更倾向于少错分，可能牺牲间隔）； $C$ 越小，对错误分类的惩罚越轻（更倾向于大间隔，可能多错分）。

1.2.2 对偶问题与核函数衔接

软间隔SVM的对偶问题与硬间隔类似，仅约束条件略有调整：
$\max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \boldsymbol{x}_i^T \boldsymbol{x}_j \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C \quad (i=1,...,N)$
关键观察：对偶问题中仅包含样本的内积 $\boldsymbol{x}_i^T \boldsymbol{x}_j$ ，这为后续核方法的引入埋下伏笔——若将样本映射到高维空间，只需替换内积为高维空间的内积即可。

二、SVM与核方法

当样本在低维空间非线性可分时，核心思路是将其映射到高维空间，使高维空间中样本线性可分，再用SVM求解。但直接映射会面临“维数灾难”（高维空间计算复杂度激增），核方法通过“核技巧”解决了这一问题。

2.1 核方法的核心思想：高维映射与核技巧

2.1.1 低维非线性→高维线性

定义映射函数 $\phi: \mathbb{R}^d \to \mathbb{R}^D$ （ $\gg d$ ），将低维样本 $\boldsymbol{x}$ 映射为高维样本 $\phi(\boldsymbol{x})$ 。若高维空间中 $\phi(\boldsymbol{x}_i)$ 线性可分，则可在高维空间构造SVM超平面：
$\boldsymbol{w}^T \phi(\boldsymbol{x}) + b = 0$
此时高维空间SVM的对偶问题为：
$\max_{\alpha} \quad \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j \cdot \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j) \\ \text{s.t.} \quad \sum_{i=1}^N \alpha_i y_i = 0, \quad 0 \leq \alpha_i \leq C$
问题：直接计算 $\phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j)$ 需先显式构造 $\phi(\cdot)$ ，当 $D$ 极大（如 $D=\infty$ ）时，计算不可行。

2.1.2 核技巧：替代高维内积

核函数的定义：若存在映射 $\phi$ ，使得对任意低维样本 $\boldsymbol{x}_i, \boldsymbol{x}_j$ ，均有：
$K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j)$
则 $K(\cdot, \cdot)$ 称为核函数。

核心价值（核技巧）：无需显式构造 $\phi(\cdot)$ ，只需直接计算低维样本的核函数 $K(\boldsymbol{x}_i, \boldsymbol{x}_j)$ ，即可等价替代高维空间的内积 $\phi(\boldsymbol{x}_i)^T \phi(\boldsymbol{x}_j)$ 。这避免了高维空间的直接计算，大幅降低复杂度。

2.2 核函数的 Mercer 条件

并非所有函数都能作为核函数，核函数需满足Mercer条件（保证映射 $\phi$ 存在，且高维内积正定）：

对任意非零函数 $f(\boldsymbol{x})$ （满足 $\int f(\boldsymbol{x})^2 d\boldsymbol{x} < \infty$ ），若核函数 $K(\boldsymbol{x}, \boldsymbol{z})$ 在定义域上连续且对称，则：
$\iint K(\boldsymbol{x}, \boldsymbol{z}) f(\boldsymbol{x}) f(\boldsymbol{z}) d\boldsymbol{x} d\boldsymbol{z} \geq 0$
直观理解：Mercer条件确保核函数对应的“Gram矩阵”（ $G_{ij}=K(\boldsymbol{x}_i, \boldsymbol{x}_j)$ ）是半正定矩阵，保证SVM对偶问题有解。

2.3 常见核函数及应用场景

实际应用中无需自行构造核函数，可直接选用经典核函数，以下为4类常用核函数：

核函数类型	数学表达式	关键参数	适用场景
线性核	$K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \boldsymbol{x}_i^T \boldsymbol{x}_j + b$	$b$ （常数项，通常取0或1）	低维线性可分数据，或高维数据（如文本分类）
多项式核	$K(\boldsymbol{x}_i, \boldsymbol{x}_j) = (\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b)^d$	$\gamma>0$ （缩放因子）、 $b$ （常数项）、 $d$ （多项式次数）	样本呈多项式分布的非线性问题（如图像局部特征分类）
径向基核（RBF）	$K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \exp(-\gamma \|\boldsymbol{x}_i - \boldsymbol{x}_j\|^2)$	$\gamma>0$ （控制核函数衰减速度）	绝大多数非线性场景（如人脸识别、异常检测），适用性最广
Sigmoid核	$K(\boldsymbol{x}_i, \boldsymbol{x}_j) = \tanh(\gamma \boldsymbol{x}_i^T \boldsymbol{x}_j + b)$	$\gamma>0$ 、 $b$ （通常取0）	模拟神经网络激活函数，适用于非线性分类（如小样本学习）

2.4 核SVM的分类决策函数

将核函数代入SVM对偶问题，求解得到 $\alpha^*$ 和 $b^*$ 后，最终的分类决策函数为：
$f(\boldsymbol{x}) = \text{sign}\left( \sum_{i=1}^N \alpha_i^* y_i K(\boldsymbol{x}_i, \boldsymbol{x}) + b^* \right)$

仅支持向量（ $\alpha_i^* > 0$ ）参与决策，非支持向量无贡献；
决策过程仅需计算测试样本 $\boldsymbol{x}$ 与训练支持向量的核函数，计算效率高。

三、SVM的进一步解释：结构风险最小化

传统机器学习模型（如最小二乘法）常追求“经验风险最小化”（即训练误差最小），但易导致过拟合。SVM的“最大间隔”思想本质是结构风险最小化（Structural Risk Minimization, SRM），可有效平衡训练误差与模型泛化能力。

3.1 风险的三种形式

在统计学习理论中，模型的“风险”（预测误差）分为三类：

经验风险（ $R_{emp}$ ）：模型在训练集上的误差，反映模型对训练数据的拟合程度。
- 例如：软间隔SVM中， $\sum_{i=1}^N \xi_i$ 可视为经验风险（错分样本的总程度）。
期望风险（ $R (f)$ ）：模型在所有可能样本上的真实误差，是模型泛化能力的本质衡量标准。
- 期望风险无法直接计算，需通过经验风险和模型复杂度间接控制。
结构风险（ $R_{struct}$ ）：经验风险与模型复杂度的加权和，即：
$R_{struct} = R_{emp} + \lambda \cdot \Omega(f)$
其中 $\Omega(f)$ 是模型复杂度的度量（ $\Omega(f)$ 越大，模型越复杂）， $\lambda>0$ 是平衡系数。

3.2 结构风险最小化的核心逻辑

SRM的目标是最小化结构风险，而非单纯最小化经验风险。其核心逻辑是：

模型复杂度 $\Omega(f)$ 越大，过拟合风险越高（即使经验风险小，期望风险也可能大）；
需在“经验风险小”（拟合训练数据）和“模型复杂度低”（避免过拟合）之间找到最优平衡。

3.3 SVM如何实现结构风险最小化

SVM的优化目标与结构风险最小化高度契合，具体对应关系如下：

结构风险组成	SVM中的对应项	作用说明
经验风险（ $R_{emp}$ ）	软间隔SVM中的 $\sum_{i=1}^N \xi_i$	控制模型在训练集上的错分程度， $\sum \xi_i$ 越小，经验风险越低
模型复杂度（ $\Omega(f)$ ）	SVM中的 $\frac{1}{2}\|\boldsymbol{w}\|^2$	反映模型的“复杂度”： $\|\boldsymbol{w}\|$ 越小，超平面间隔越大，模型复杂度越低（泛化能力越强）
平衡系数（ $\lambda$ ）	软间隔SVM中的 $\frac{1}{C}$	$C$ 越大， $\lambda$ 越小，对经验风险的惩罚越重（优先保证少错分）； $C$ 越小， $\lambda$ 越大，对模型复杂度的惩罚越重（优先保证大间隔）

关键结论：最大间隔=低模型复杂度

SVM的“最大间隔”等价于最小化 $\|\boldsymbol{w}\|^2$ ，而 $\|\boldsymbol{w}\|^2$ 是模型复杂度的度量。因此：

间隔越大，模型复杂度越低，过拟合风险越小；
软间隔SVM通过 $C$ 平衡“经验风险（错分）”与“模型复杂度（间隔）”，最终实现结构风险最小化，保证强泛化能力。

3.4 经验风险最小化 vs 结构风险最小化

通过对比两种风险最小化策略，可更清晰理解SVM的优势：

对比维度	经验风险最小化（ERM）	结构风险最小化（SRM）
目标	最小化训练误差	最小化“训练误差+模型复杂度”
核心问题	易过拟合（训练误差小，测试误差大）	平衡拟合与泛化，降低过拟合风险
典型例子	最小二乘法、决策树（未剪枝）	SVM、正则化逻辑回归
对SVM的适配性	不适用（硬间隔SVM经验风险为0，但需控制复杂度）	完全适配（最大间隔对应低复杂度，软间隔平衡风险）