15、支持向量机的广义近似交叉验证

最新推荐文章于 2025-11-23 15:51:39 发布

肥宅快乐水901

最新推荐文章于 2025-11-23 15:51:39 发布

阅读量52

点赞数

CC 4.0 BY-SA版权

分类专栏：大边距分类器的奥秘文章标签：支持向量机 SVM 广义近似交叉验证

本文链接：https://blog.youkuaiyun.com/websocket5live/article/details/152059086

大边距分类器的奥秘专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

支持向量机的广义近似交叉验证

支持向量机（SVM）在许多分类研究中取得了巨大成功，可将其视为再生核希尔伯特空间（RKHS）中的变分/正则化问题。本文引入广义近似交叉验证（GACV）来估计SVM中的调优参数，目标是最小化广义比较Kullback - Leibler距离（GCKL），而GCKL是预期误分类率的上界。

1. 引言

SVM范式在分类研究中成效显著，可转化为RKHS中的变分/正则化问题。从正则化问题角度审视SVM范式，能与惩罚对数似然方法进行比较，还可应用模型选择和调优方法来选择非参数统计模型中的调优参数。

1.1 主要工作

明确RKHS中SVM范式与传统SVM分类问题的对偶数学规划问题的联系。
回顾SVM范式的GCKL，发现它是预期误分类率的简单上界。
重新探讨GACV作为GCKL的代理，发现无需对GACV进行随机化，可用可精确计算的近似方法替代。该估计与估计SVM的（观测）VC维有关，初步模拟表明GACV的最小值是GCKL最小值的合理估计。

2. SVM变分问题

2.1 相关定义

设 $T$ 为索引集，$t \in T$（通常 $T = E^d$，欧几里得 $d$ 空间）。$K(s, t)$ 是 $T \otimes T$ 上的正定函数，$H_K$ 是以 $K$ 为再生核的RKHS。给定训练集 ${y_i, t_i}$，其中属性向量 $t_i \in T$，$y_i = \pm 1$ 表示样本所属类别。

2.2 变分问题

经典SVM范式等价于找到形如 $f_{\lambda} = const + h$（$h \in H_K$）的函数，使下式最小化：
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i) + + \lambda |h| {H_K}^2
]
其中 $f_i = f(t_i)$，$( \tau ) + = \begin{cases} \tau, & \tau > 0 \ 0, & \text{otherwise} \end{cases}$。决策规则为：对于新样本属性向量 $t$，若 $f {\lambda}(t) > 0$ 归为类别 $A$，若 $f_{\lambda}(t) < 0$ 归为类别 $B$。

假设 $K$ 在 $T \otimes T$ 上严格正定，上述变分问题的最小值解在 ${K(\cdot, t_i), i = 1, \cdots, n}$ 的张成空间中。令 $e = (1, \cdots, 1)’$，$y = (y_1, \cdots, y_n)’$，$c = (c_1, \cdots, c_n)’$，$f = (f_1, \cdots, f_n)’$，$K$ 为 $n \times n$ 矩阵，其 $(i, j)$ 元素为 $K(t_i, t_j)$，则有 $f = Kc + ed$，变分问题变为：找到 $(c, d)$ 使下式最小化
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i)_+ + \lambda c’ K c
]

3. 对偶问题

3.1 对偶形式推导

设 $Y$ 为 $n \times n$ 对角矩阵，第 $i$ 个对角元素为 $y_i$，$H = \frac{1}{2n\lambda} Y K Y$。通过将变分问题转化为对偶形式，可得 $c = \frac{1}{2n\lambda} Y \alpha$，其中 $\alpha$ 是以下问题的解：
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件：
- $0 \leq \alpha \leq e$
- $e’ Y \alpha = y’ \alpha = 0$

假设存在 $i$ 使得 $0 < \alpha_i < 1$，则 $d = \frac{1}{y_i} - \sum_{j = 1}^{n} c_j K(t_i, t_j)$。在实验中，使用MINOS优化例程来求解 $\alpha$，进而得到 $c$。支持向量是 $\alpha_i \neq 0$（等价于 $c_i \neq 0$）对应的 $K(\cdot, t_i)$。

3.2 硬间隔与 $\sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i}$ 的关系

在训练集点可完全分离的情况下，硬间隔 $\gamma$ 满足：
[
\gamma^2 = 2n\lambda \left( \sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i} \right)^{-1}
]

推导过程如下：在完全可分情况下，$\alpha_{\lambda i}$ 是以下问题的解：
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件：$\alpha_i \geq 0$ 且 $y’ \alpha = 0$

引入拉格朗日乘子 $\xi = (\xi_1, \cdots, \xi_n)’$ 和 $\beta$，拉格朗日函数为 $L_P = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha - \beta y’ \alpha - \xi’ \alpha$。$\alpha_{\lambda i}$ 满足Kuhn - Tucker条件，由此可得 $c’ K c = \frac{1}{2n\lambda} [\alpha_{\lambda}’ e]$。由于 $\alpha_{\lambda i} = 0$ 当 $y_i f_i > 1$ 时，最终得到上述硬间隔公式。

4. 广义比较Kullback - Leibler距离

假设未观测到的 $y_i$ 根据未知概率模型生成，$p(t) = p_{true}(t)$ 是属性向量为 $t$ 的实例属于类别 $A$ 的概率。给定 $f_{\lambda}$，定义关于 $g$ 的GCKL距离为：
[
GCKL(p_{true}, f_{\lambda}) = GCKL(\lambda) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]
]

不同 $g$ 函数下的情况：
- 若 $g(\tau) = \ln(1 + e^{-\tau})$，$GCKL(\lambda)$ 简化为伯努利数据的通常CKL在训练集属性向量上的平均值。
- 若 $g(\tau) = [-\tau] $（$[\tau]_ = 1$ 当 $\tau > 0$，$0$ 否则），$GCKL(\lambda)$ 是 $f {\lambda}$ 在未观测实例上的预期误分类率（假设未观测实例的 $t_j$ 分布与训练集相同）。
- 若 $g(\tau) = (1 - \tau) +$，$E {true}(1 - y_j f_{\lambda j}) +$ 有不同表达式，且 $[ - y_i f_i ] * \leq (1 - y_i f_i) +$，所以 $(1 - y_i f_i) +$ 的GCKL是预期误分类率的上界。

5. 留一法与GACV

5.1 留一法函数

设 $f_{ \lambda }^{[-i]}$ 是以下变分问题的解：找到形如 $f = const + h$（$h \in H_K$）的函数，使下式最小化
[
\frac{1}{n} \sum_{j = 1, j \neq i}^{n} g(y_j f_j) + \lambda |h|_{H_K}^2
]

留一法函数 $V_0(\lambda)$ 定义为：
[
V_0(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{ \lambda i }^{[-i]})
]
可将 $V_0(\lambda)$ 视为 $GCKL(\lambda)$ 的代理，但在大数据集中通常难以计算。

5.2 GACV的推导

令 $V_0(\lambda) = OBS(\lambda) + D(\lambda)$，其中：
- $OBS(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{\lambda i})$ 是 $f_{\lambda}$ 与数据的观测匹配度。
- $D(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} [g(y_i f_{ \lambda i }^{[-i]}) - g(y_i f_{\lambda i})]$

使用一阶泰勒级数展开可得：
[
D(\lambda) \approx - \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial g}{\partial f_{\lambda i}} (f_{\lambda i} - f_{ \lambda i }^{[-i]})
]

定义 $\mu(f)$ 为给定 $f$ 时 $y$ 的“预测”：
[
\mu_i = \mu(f_i) = \sum_{y \in { +1, -1 }} \frac{\partial}{\partial f_i} g(y f_i)
]

当 $g(\tau) = \ln(1 + e^{-\tau})$ 时，$\mu(f) = 2p - 1 = E{y | p}$；当 $g(\tau) = (1 - \tau)_+$ 时，$\mu(f)$ 是一种全有或全无的预测。

通过一系列近似和推导，最终得到：
[
D(\lambda) \approx \frac{1}{n} \sum_{y_i f_{\lambda i} < -1} 2 \frac{\partial f_{\lambda i}}{\partial y_i} + \frac{1}{n} \sum_{y_i f_{\lambda i} \in [-1, 1]} \frac{\partial f_{\lambda i}}{\partial y_i}
]
其中 $\frac{\partial f_{\lambda i}}{\partial y_i} = \frac{K(t_i, t_i) \alpha_{\lambda i}}{2n\lambda} \equiv \frac{|K(\cdot, t_i)| {H_K}^2 \alpha {\lambda i}}{2n\lambda}$。

5.3 GACV公式

[
GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i}) + + \hat{D}(\lambda)
]
其中
[
\hat{D}(\lambda) = \frac{1}{n} \left[ 2 \sum {y_i f_{\lambda i} < -1} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)| {H_K}^2 + \sum {y_i f_{\lambda i} \in [-1, 1]} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)|_{H_K}^2 \right]
]

若 $K = K_{\theta}$，其中 $\theta$ 是 $K$ 中的敏感参数，则可记为 $GACV(\lambda) = GACV(\lambda, \theta)$。当 $K(\cdot, \cdot)$ 是径向基函数时，$|K(\cdot, t_i)| {H_K}^2 = K(0, 0)$，且 $|K(\cdot, t_i) - K(\cdot, t_j)| {H_K}^2 \leq 2K(0, 0)$。若训练集所有样本分类正确，则 $\hat{D}(\lambda) = \frac{K(0, 0)}{n \gamma^2}$。

6. 数值结果

6.1 示例一

属性向量 $t$ 按 $T$ 上的均匀分布生成（$T$ 为正方形区域）。
不同区域的样本按不同概率分配类别：大圆圈外样本为 $+1$ 的概率 $p_{true} = 0.95$，为 $-1$ 的概率 $0.05$；内外圆圈之间样本为 $+1$ 的概率 $p_{true} = 0.50$；内圆圈内样本为 $+1$ 的概率 $p_{true} = 0.05$。
核函数 $K(s, t) = e^{-\frac{1}{2\sigma^2} |s - t|^2}$，$\sigma$ 为可调参数。

绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$（$\log_{10} \sigma = -1$）以及关于 $\log_{10} \sigma$（$\log_{10} \lambda = -2.5$）的曲线。结果显示 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$，$GACV$ 的最小值是 $GCKL$ 最小值的良好估计。

6.2 示例二

与示例一类似，不同区域样本按不同概率（$p_{true}$ 分别为 $0.95$、$0.5$ 和 $0.05$）分配类别。
同样绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$ 和 $\log_{10} \sigma$ 的曲线，结果表明 $GACV$ 的最小值能较好地估计 $GCKL$ 的最小值。

由于 $GACV$ 和 $GCKL$ 曲线较为粗糙，难以获得全局最小值，但在实践中接近最小值的结果通常是足够的。后续将继续研究更复杂情况下的GACV和GCKL。

7. 总结与展望

7.1 研究成果总结

理论贡献 ：引入广义近似交叉验证（GACV）来估计支持向量机（SVM）中的调优参数，其目标是最小化广义比较Kullback - Leibler距离（GCKL），且证明了GCKL是预期误分类率的上界。详细推导了SVM变分问题、对偶问题，以及GACV的计算公式，建立了这些概念之间的理论联系。
数值验证 ：通过两个简单示例，绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于不同参数的曲线，结果表明 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$，GACV的最小值是GCKL最小值的良好估计，验证了理论的有效性。

7.2 研究的局限性

全局最小值求解困难 ：GACV和GCKL曲线较为粗糙，在求解全局最小值时存在困难。由于曲线可能在活动约束集改变时出现跳跃或撕裂，且它们并非连续函数，这使得精确找到全局最优解变得极具挑战性。
数据规模与计算复杂度 ：留一法函数 $V_0(\lambda)$ 虽然可视为 $GCKL(\lambda)$ 的代理，但在大数据集中通常难以计算，这限制了该方法在大规模数据场景下的应用。

7.3 未来研究方向

复杂情况研究 ：继续深入研究GACV和GCKL在更复杂情况下的表现，例如处理高维数据、不平衡数据等场景，以拓展该方法的适用范围。
优化求解算法 ：探索更有效的优化算法，以克服求解全局最小值的困难。可以考虑使用启发式算法、自适应搜索算法等，提高求解效率和精度。
实际应用验证 ：将该方法应用到实际的分类问题中，如医学诊断、图像识别、金融风险评估等领域，验证其在实际场景中的有效性和实用性。

7.4 关键技术点总结

技术点	描述
SVM变分问题	找到形如 $f_{\lambda} = const + h$（$h \in H_K$）的函数，使 $\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i) + + \lambda \|h\| {H_K}^2$ 最小化
对偶问题	通过将变分问题转化为对偶形式，求解 $\alpha$ 进而得到 $c$ 和 $d$
GCKL距离	$GCKL(p_{true}, f_{\lambda}) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]$，不同 $g$ 函数有不同含义
GACV公式	$GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i})_+ + \hat{D}(\lambda)$，其中 $\hat{D}(\lambda)$ 有具体表达式

7.5 研究流程总结

graph LR
    A[引入SVM变分问题] --> B[推导对偶问题]
    B --> C[定义GCKL距离]
    C --> D[使用留一法推导GACV]
    D --> E[数值实验验证]
    E --> F[总结成果与局限性]
    F --> G[确定未来研究方向]

综上所述，本文提出的GACV方法为SVM调优参数的选择提供了一种有效的途径，虽然存在一定的局限性，但具有广阔的研究和应用前景。未来的研究可以围绕上述方向展开，进一步完善该方法，使其更好地服务于实际分类问题。