支持向量机的广义近似交叉验证
支持向量机(SVM)在许多分类研究中取得了巨大成功,可将其视为再生核希尔伯特空间(RKHS)中的变分/正则化问题。本文引入广义近似交叉验证(GACV)来估计SVM中的调优参数,目标是最小化广义比较Kullback - Leibler距离(GCKL),而GCKL是预期误分类率的上界。
1. 引言
SVM范式在分类研究中成效显著,可转化为RKHS中的变分/正则化问题。从正则化问题角度审视SVM范式,能与惩罚对数似然方法进行比较,还可应用模型选择和调优方法来选择非参数统计模型中的调优参数。
1.1 主要工作
- 明确RKHS中SVM范式与传统SVM分类问题的对偶数学规划问题的联系。
- 回顾SVM范式的GCKL,发现它是预期误分类率的简单上界。
- 重新探讨GACV作为GCKL的代理,发现无需对GACV进行随机化,可用可精确计算的近似方法替代。该估计与估计SVM的(观测)VC维有关,初步模拟表明GACV的最小值是GCKL最小值的合理估计。
2. SVM变分问题
2.1 相关定义
设 $T$ 为索引集,$t \in T$(通常 $T = E^d$,欧几里得 $d$ 空间)。$K(s, t)$ 是 $T \otimes T$ 上的正定函数,$H_K$ 是以 $K$ 为再生核的RKHS。给定训练集 ${y_i, t_i}$,其中属性向量 $t_i \in T$,$y_i = \pm 1$ 表示样本所属类别。
2.2 变分问题
经典SVM范式等价于找到形如 $f_{\lambda} = const + h$($h \in H_K$)的函数,使下式最小化:
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i)
+ + \lambda |h|
{H_K}^2
]
其中 $f_i = f(t_i)$,$( \tau )
+ = \begin{cases} \tau, & \tau > 0 \ 0, & \text{otherwise} \end{cases}$。决策规则为:对于新样本属性向量 $t$,若 $f
{\lambda}(t) > 0$ 归为类别 $A$,若 $f_{\lambda}(t) < 0$ 归为类别 $B$。
假设 $K$ 在 $T \otimes T$ 上严格正定,上述变分问题的最小值解在 ${K(\cdot, t_i), i = 1, \cdots, n}$ 的张成空间中。令 $e = (1, \cdots, 1)’$,$y = (y_1, \cdots, y_n)’$,$c = (c_1, \cdots, c_n)’$,$f = (f_1, \cdots, f_n)’$,$K$ 为 $n \times n$ 矩阵,其 $(i, j)$ 元素为 $K(t_i, t_j)$,则有 $f = Kc + ed$,变分问题变为:找到 $(c, d)$ 使下式最小化
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i)_+ + \lambda c’ K c
]
3. 对偶问题
3.1 对偶形式推导
设 $Y$ 为 $n \times n$ 对角矩阵,第 $i$ 个对角元素为 $y_i$,$H = \frac{1}{2n\lambda} Y K Y$。通过将变分问题转化为对偶形式,可得 $c = \frac{1}{2n\lambda} Y \alpha$,其中 $\alpha$ 是以下问题的解:
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件:
- $0 \leq \alpha \leq e$
- $e’ Y \alpha = y’ \alpha = 0$
假设存在 $i$ 使得 $0 < \alpha_i < 1$,则 $d = \frac{1}{y_i} - \sum_{j = 1}^{n} c_j K(t_i, t_j)$。在实验中,使用MINOS优化例程来求解 $\alpha$,进而得到 $c$。支持向量是 $\alpha_i \neq 0$(等价于 $c_i \neq 0$)对应的 $K(\cdot, t_i)$。
3.2 硬间隔与 $\sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i}$ 的关系
在训练集点可完全分离的情况下,硬间隔 $\gamma$ 满足:
[
\gamma^2 = 2n\lambda \left( \sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i} \right)^{-1}
]
推导过程如下:在完全可分情况下,$\alpha_{\lambda i}$ 是以下问题的解:
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件:$\alpha_i \geq 0$ 且 $y’ \alpha = 0$
引入拉格朗日乘子 $\xi = (\xi_1, \cdots, \xi_n)’$ 和 $\beta$,拉格朗日函数为 $L_P = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha - \beta y’ \alpha - \xi’ \alpha$。$\alpha_{\lambda i}$ 满足Kuhn - Tucker条件,由此可得 $c’ K c = \frac{1}{2n\lambda} [\alpha_{\lambda}’ e]$。由于 $\alpha_{\lambda i} = 0$ 当 $y_i f_i > 1$ 时,最终得到上述硬间隔公式。
4. 广义比较Kullback - Leibler距离
假设未观测到的 $y_i$ 根据未知概率模型生成,$p(t) = p_{true}(t)$ 是属性向量为 $t$ 的实例属于类别 $A$ 的概率。给定 $f_{\lambda}$,定义关于 $g$ 的GCKL距离为:
[
GCKL(p_{true}, f_{\lambda}) = GCKL(\lambda) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]
]
不同 $g$ 函数下的情况:
- 若 $g(\tau) = \ln(1 + e^{-\tau})$,$GCKL(\lambda)$ 简化为伯努利数据的通常CKL在训练集属性向量上的平均值。
- 若 $g(\tau) = [-\tau]
$($[\tau]_
= 1$ 当 $\tau > 0$,$0$ 否则),$GCKL(\lambda)$ 是 $f
{\lambda}$ 在未观测实例上的预期误分类率(假设未观测实例的 $t_j$ 分布与训练集相同)。
- 若 $g(\tau) = (1 - \tau)
+$,$E
{true}(1 - y_j f_{\lambda j})
+$ 有不同表达式,且 $[ - y_i f_i ]
* \leq (1 - y_i f_i)
+$,所以 $(1 - y_i f_i)
+$ 的GCKL是预期误分类率的上界。
5. 留一法与GACV
5.1 留一法函数
设 $f_{ \lambda }^{[-i]}$ 是以下变分问题的解:找到形如 $f = const + h$($h \in H_K$)的函数,使下式最小化
[
\frac{1}{n} \sum_{j = 1, j \neq i}^{n} g(y_j f_j) + \lambda |h|_{H_K}^2
]
留一法函数 $V_0(\lambda)$ 定义为:
[
V_0(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{ \lambda i }^{[-i]})
]
可将 $V_0(\lambda)$ 视为 $GCKL(\lambda)$ 的代理,但在大数据集中通常难以计算。
5.2 GACV的推导
令 $V_0(\lambda) = OBS(\lambda) + D(\lambda)$,其中:
- $OBS(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{\lambda i})$ 是 $f_{\lambda}$ 与数据的观测匹配度。
- $D(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} [g(y_i f_{ \lambda i }^{[-i]}) - g(y_i f_{\lambda i})]$
使用一阶泰勒级数展开可得:
[
D(\lambda) \approx - \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial g}{\partial f_{\lambda i}} (f_{\lambda i} - f_{ \lambda i }^{[-i]})
]
定义 $\mu(f)$ 为给定 $f$ 时 $y$ 的“预测”:
[
\mu_i = \mu(f_i) = \sum_{y \in { +1, -1 }} \frac{\partial}{\partial f_i} g(y f_i)
]
当 $g(\tau) = \ln(1 + e^{-\tau})$ 时,$\mu(f) = 2p - 1 = E{y | p}$;当 $g(\tau) = (1 - \tau)_+$ 时,$\mu(f)$ 是一种全有或全无的预测。
通过一系列近似和推导,最终得到:
[
D(\lambda) \approx \frac{1}{n} \sum_{y_i f_{\lambda i} < -1} 2 \frac{\partial f_{\lambda i}}{\partial y_i} + \frac{1}{n} \sum_{y_i f_{\lambda i} \in [-1, 1]} \frac{\partial f_{\lambda i}}{\partial y_i}
]
其中 $\frac{\partial f_{\lambda i}}{\partial y_i} = \frac{K(t_i, t_i) \alpha_{\lambda i}}{2n\lambda} \equiv \frac{|K(\cdot, t_i)|
{H_K}^2 \alpha
{\lambda i}}{2n\lambda}$。
5.3 GACV公式
[
GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i})
+ + \hat{D}(\lambda)
]
其中
[
\hat{D}(\lambda) = \frac{1}{n} \left[ 2 \sum
{y_i f_{\lambda i} < -1} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)|
{H_K}^2 + \sum
{y_i f_{\lambda i} \in [-1, 1]} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)|_{H_K}^2 \right]
]
若 $K = K_{\theta}$,其中 $\theta$ 是 $K$ 中的敏感参数,则可记为 $GACV(\lambda) = GACV(\lambda, \theta)$。当 $K(\cdot, \cdot)$ 是径向基函数时,$|K(\cdot, t_i)| {H_K}^2 = K(0, 0)$,且 $|K(\cdot, t_i) - K(\cdot, t_j)| {H_K}^2 \leq 2K(0, 0)$。若训练集所有样本分类正确,则 $\hat{D}(\lambda) = \frac{K(0, 0)}{n \gamma^2}$。
6. 数值结果
6.1 示例一
- 属性向量 $t$ 按 $T$ 上的均匀分布生成($T$ 为正方形区域)。
- 不同区域的样本按不同概率分配类别:大圆圈外样本为 $+1$ 的概率 $p_{true} = 0.95$,为 $-1$ 的概率 $0.05$;内外圆圈之间样本为 $+1$ 的概率 $p_{true} = 0.50$;内圆圈内样本为 $+1$ 的概率 $p_{true} = 0.05$。
- 核函数 $K(s, t) = e^{-\frac{1}{2\sigma^2} |s - t|^2}$,$\sigma$ 为可调参数。
绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$($\log_{10} \sigma = -1$)以及关于 $\log_{10} \sigma$($\log_{10} \lambda = -2.5$)的曲线。结果显示 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$,$GACV$ 的最小值是 $GCKL$ 最小值的良好估计。
6.2 示例二
- 与示例一类似,不同区域样本按不同概率($p_{true}$ 分别为 $0.95$、$0.5$ 和 $0.05$)分配类别。
- 同样绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$ 和 $\log_{10} \sigma$ 的曲线,结果表明 $GACV$ 的最小值能较好地估计 $GCKL$ 的最小值。
由于 $GACV$ 和 $GCKL$ 曲线较为粗糙,难以获得全局最小值,但在实践中接近最小值的结果通常是足够的。后续将继续研究更复杂情况下的GACV和GCKL。
7. 总结与展望
7.1 研究成果总结
- 理论贡献 :引入广义近似交叉验证(GACV)来估计支持向量机(SVM)中的调优参数,其目标是最小化广义比较Kullback - Leibler距离(GCKL),且证明了GCKL是预期误分类率的上界。详细推导了SVM变分问题、对偶问题,以及GACV的计算公式,建立了这些概念之间的理论联系。
- 数值验证 :通过两个简单示例,绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于不同参数的曲线,结果表明 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$,GACV的最小值是GCKL最小值的良好估计,验证了理论的有效性。
7.2 研究的局限性
- 全局最小值求解困难 :GACV和GCKL曲线较为粗糙,在求解全局最小值时存在困难。由于曲线可能在活动约束集改变时出现跳跃或撕裂,且它们并非连续函数,这使得精确找到全局最优解变得极具挑战性。
- 数据规模与计算复杂度 :留一法函数 $V_0(\lambda)$ 虽然可视为 $GCKL(\lambda)$ 的代理,但在大数据集中通常难以计算,这限制了该方法在大规模数据场景下的应用。
7.3 未来研究方向
- 复杂情况研究 :继续深入研究GACV和GCKL在更复杂情况下的表现,例如处理高维数据、不平衡数据等场景,以拓展该方法的适用范围。
- 优化求解算法 :探索更有效的优化算法,以克服求解全局最小值的困难。可以考虑使用启发式算法、自适应搜索算法等,提高求解效率和精度。
- 实际应用验证 :将该方法应用到实际的分类问题中,如医学诊断、图像识别、金融风险评估等领域,验证其在实际场景中的有效性和实用性。
7.4 关键技术点总结
| 技术点 | 描述 |
|---|---|
| SVM变分问题 | 找到形如 $f_{\lambda} = const + h$($h \in H_K$)的函数,使 $\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i) + + \lambda |h| {H_K}^2$ 最小化 |
| 对偶问题 | 通过将变分问题转化为对偶形式,求解 $\alpha$ 进而得到 $c$ 和 $d$ |
| GCKL距离 | $GCKL(p_{true}, f_{\lambda}) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]$,不同 $g$ 函数有不同含义 |
| GACV公式 | $GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i})_+ + \hat{D}(\lambda)$,其中 $\hat{D}(\lambda)$ 有具体表达式 |
7.5 研究流程总结
graph LR
A[引入SVM变分问题] --> B[推导对偶问题]
B --> C[定义GCKL距离]
C --> D[使用留一法推导GACV]
D --> E[数值实验验证]
E --> F[总结成果与局限性]
F --> G[确定未来研究方向]
综上所述,本文提出的GACV方法为SVM调优参数的选择提供了一种有效的途径,虽然存在一定的局限性,但具有广阔的研究和应用前景。未来的研究可以围绕上述方向展开,进一步完善该方法,使其更好地服务于实际分类问题。
超级会员免费看
14

被折叠的 条评论
为什么被折叠?



