15、支持向量机的广义近似交叉验证

支持向量机的广义近似交叉验证

支持向量机(SVM)在许多分类研究中取得了巨大成功,可将其视为再生核希尔伯特空间(RKHS)中的变分/正则化问题。本文引入广义近似交叉验证(GACV)来估计SVM中的调优参数,目标是最小化广义比较Kullback - Leibler距离(GCKL),而GCKL是预期误分类率的上界。

1. 引言

SVM范式在分类研究中成效显著,可转化为RKHS中的变分/正则化问题。从正则化问题角度审视SVM范式,能与惩罚对数似然方法进行比较,还可应用模型选择和调优方法来选择非参数统计模型中的调优参数。

1.1 主要工作

  • 明确RKHS中SVM范式与传统SVM分类问题的对偶数学规划问题的联系。
  • 回顾SVM范式的GCKL,发现它是预期误分类率的简单上界。
  • 重新探讨GACV作为GCKL的代理,发现无需对GACV进行随机化,可用可精确计算的近似方法替代。该估计与估计SVM的(观测)VC维有关,初步模拟表明GACV的最小值是GCKL最小值的合理估计。

2. SVM变分问题

2.1 相关定义

设 $T$ 为索引集,$t \in T$(通常 $T = E^d$,欧几里得 $d$ 空间)。$K(s, t)$ 是 $T \otimes T$ 上的正定函数,$H_K$ 是以 $K$ 为再生核的RKHS。给定训练集 ${y_i, t_i}$,其中属性向量 $t_i \in T$,$y_i = \pm 1$ 表示样本所属类别。

2.2 变分问题

经典SVM范式等价于找到形如 $f_{\lambda} = const + h$($h \in H_K$)的函数,使下式最小化:
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i) + + \lambda |h| {H_K}^2
]
其中 $f_i = f(t_i)$,$( \tau ) + = \begin{cases} \tau, & \tau > 0 \ 0, & \text{otherwise} \end{cases}$。决策规则为:对于新样本属性向量 $t$,若 $f {\lambda}(t) > 0$ 归为类别 $A$,若 $f_{\lambda}(t) < 0$ 归为类别 $B$。

假设 $K$ 在 $T \otimes T$ 上严格正定,上述变分问题的最小值解在 ${K(\cdot, t_i), i = 1, \cdots, n}$ 的张成空间中。令 $e = (1, \cdots, 1)’$,$y = (y_1, \cdots, y_n)’$,$c = (c_1, \cdots, c_n)’$,$f = (f_1, \cdots, f_n)’$,$K$ 为 $n \times n$ 矩阵,其 $(i, j)$ 元素为 $K(t_i, t_j)$,则有 $f = Kc + ed$,变分问题变为:找到 $(c, d)$ 使下式最小化
[
\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i)_+ + \lambda c’ K c
]

3. 对偶问题

3.1 对偶形式推导

设 $Y$ 为 $n \times n$ 对角矩阵,第 $i$ 个对角元素为 $y_i$,$H = \frac{1}{2n\lambda} Y K Y$。通过将变分问题转化为对偶形式,可得 $c = \frac{1}{2n\lambda} Y \alpha$,其中 $\alpha$ 是以下问题的解:
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件:
- $0 \leq \alpha \leq e$
- $e’ Y \alpha = y’ \alpha = 0$

假设存在 $i$ 使得 $0 < \alpha_i < 1$,则 $d = \frac{1}{y_i} - \sum_{j = 1}^{n} c_j K(t_i, t_j)$。在实验中,使用MINOS优化例程来求解 $\alpha$,进而得到 $c$。支持向量是 $\alpha_i \neq 0$(等价于 $c_i \neq 0$)对应的 $K(\cdot, t_i)$。

3.2 硬间隔与 $\sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i}$ 的关系

在训练集点可完全分离的情况下,硬间隔 $\gamma$ 满足:
[
\gamma^2 = 2n\lambda \left( \sum_{y_i f_{\lambda i} \leq 1} \alpha_{\lambda i} \right)^{-1}
]

推导过程如下:在完全可分情况下,$\alpha_{\lambda i}$ 是以下问题的解:
- 最大化 $L = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha$
- 约束条件:$\alpha_i \geq 0$ 且 $y’ \alpha = 0$

引入拉格朗日乘子 $\xi = (\xi_1, \cdots, \xi_n)’$ 和 $\beta$,拉格朗日函数为 $L_P = -\frac{1}{2} \alpha’ H \alpha + e’ \alpha - \beta y’ \alpha - \xi’ \alpha$。$\alpha_{\lambda i}$ 满足Kuhn - Tucker条件,由此可得 $c’ K c = \frac{1}{2n\lambda} [\alpha_{\lambda}’ e]$。由于 $\alpha_{\lambda i} = 0$ 当 $y_i f_i > 1$ 时,最终得到上述硬间隔公式。

4. 广义比较Kullback - Leibler距离

假设未观测到的 $y_i$ 根据未知概率模型生成,$p(t) = p_{true}(t)$ 是属性向量为 $t$ 的实例属于类别 $A$ 的概率。给定 $f_{\lambda}$,定义关于 $g$ 的GCKL距离为:
[
GCKL(p_{true}, f_{\lambda}) = GCKL(\lambda) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]
]

不同 $g$ 函数下的情况:
- 若 $g(\tau) = \ln(1 + e^{-\tau})$,$GCKL(\lambda)$ 简化为伯努利数据的通常CKL在训练集属性向量上的平均值。
- 若 $g(\tau) = [-\tau] $($[\tau]_ = 1$ 当 $\tau > 0$,$0$ 否则),$GCKL(\lambda)$ 是 $f {\lambda}$ 在未观测实例上的预期误分类率(假设未观测实例的 $t_j$ 分布与训练集相同)。
- 若 $g(\tau) = (1 - \tau) +$,$E {true}(1 - y_j f_{\lambda j}) +$ 有不同表达式,且 $[ - y_i f_i ] * \leq (1 - y_i f_i) +$,所以 $(1 - y_i f_i) +$ 的GCKL是预期误分类率的上界。

5. 留一法与GACV

5.1 留一法函数

设 $f_{ \lambda }^{[-i]}$ 是以下变分问题的解:找到形如 $f = const + h$($h \in H_K$)的函数,使下式最小化
[
\frac{1}{n} \sum_{j = 1, j \neq i}^{n} g(y_j f_j) + \lambda |h|_{H_K}^2
]

留一法函数 $V_0(\lambda)$ 定义为:
[
V_0(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{ \lambda i }^{[-i]})
]
可将 $V_0(\lambda)$ 视为 $GCKL(\lambda)$ 的代理,但在大数据集中通常难以计算。

5.2 GACV的推导

令 $V_0(\lambda) = OBS(\lambda) + D(\lambda)$,其中:
- $OBS(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} g(y_i f_{\lambda i})$ 是 $f_{\lambda}$ 与数据的观测匹配度。
- $D(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} [g(y_i f_{ \lambda i }^{[-i]}) - g(y_i f_{\lambda i})]$

使用一阶泰勒级数展开可得:
[
D(\lambda) \approx - \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial g}{\partial f_{\lambda i}} (f_{\lambda i} - f_{ \lambda i }^{[-i]})
]

定义 $\mu(f)$ 为给定 $f$ 时 $y$ 的“预测”:
[
\mu_i = \mu(f_i) = \sum_{y \in { +1, -1 }} \frac{\partial}{\partial f_i} g(y f_i)
]

当 $g(\tau) = \ln(1 + e^{-\tau})$ 时,$\mu(f) = 2p - 1 = E{y | p}$;当 $g(\tau) = (1 - \tau)_+$ 时,$\mu(f)$ 是一种全有或全无的预测。

通过一系列近似和推导,最终得到:
[
D(\lambda) \approx \frac{1}{n} \sum_{y_i f_{\lambda i} < -1} 2 \frac{\partial f_{\lambda i}}{\partial y_i} + \frac{1}{n} \sum_{y_i f_{\lambda i} \in [-1, 1]} \frac{\partial f_{\lambda i}}{\partial y_i}
]
其中 $\frac{\partial f_{\lambda i}}{\partial y_i} = \frac{K(t_i, t_i) \alpha_{\lambda i}}{2n\lambda} \equiv \frac{|K(\cdot, t_i)| {H_K}^2 \alpha {\lambda i}}{2n\lambda}$。

5.3 GACV公式

[
GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i}) + + \hat{D}(\lambda)
]
其中
[
\hat{D}(\lambda) = \frac{1}{n} \left[ 2 \sum
{y_i f_{\lambda i} < -1} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)| {H_K}^2 + \sum {y_i f_{\lambda i} \in [-1, 1]} \frac{\alpha_{\lambda i}}{2n\lambda} \cdot |K(\cdot, t_i)|_{H_K}^2 \right]
]

若 $K = K_{\theta}$,其中 $\theta$ 是 $K$ 中的敏感参数,则可记为 $GACV(\lambda) = GACV(\lambda, \theta)$。当 $K(\cdot, \cdot)$ 是径向基函数时,$|K(\cdot, t_i)| {H_K}^2 = K(0, 0)$,且 $|K(\cdot, t_i) - K(\cdot, t_j)| {H_K}^2 \leq 2K(0, 0)$。若训练集所有样本分类正确,则 $\hat{D}(\lambda) = \frac{K(0, 0)}{n \gamma^2}$。

6. 数值结果

6.1 示例一

  • 属性向量 $t$ 按 $T$ 上的均匀分布生成($T$ 为正方形区域)。
  • 不同区域的样本按不同概率分配类别:大圆圈外样本为 $+1$ 的概率 $p_{true} = 0.95$,为 $-1$ 的概率 $0.05$;内外圆圈之间样本为 $+1$ 的概率 $p_{true} = 0.50$;内圆圈内样本为 $+1$ 的概率 $p_{true} = 0.05$。
  • 核函数 $K(s, t) = e^{-\frac{1}{2\sigma^2} |s - t|^2}$,$\sigma$ 为可调参数。

绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$($\log_{10} \sigma = -1$)以及关于 $\log_{10} \sigma$($\log_{10} \lambda = -2.5$)的曲线。结果显示 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$,$GACV$ 的最小值是 $GCKL$ 最小值的良好估计。

6.2 示例二

  • 与示例一类似,不同区域样本按不同概率($p_{true}$ 分别为 $0.95$、$0.5$ 和 $0.05$)分配类别。
  • 同样绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于 $\log_{10} \lambda$ 和 $\log_{10} \sigma$ 的曲线,结果表明 $GACV$ 的最小值能较好地估计 $GCKL$ 的最小值。

由于 $GACV$ 和 $GCKL$ 曲线较为粗糙,难以获得全局最小值,但在实践中接近最小值的结果通常是足够的。后续将继续研究更复杂情况下的GACV和GCKL。

7. 总结与展望

7.1 研究成果总结

  • 理论贡献 :引入广义近似交叉验证(GACV)来估计支持向量机(SVM)中的调优参数,其目标是最小化广义比较Kullback - Leibler距离(GCKL),且证明了GCKL是预期误分类率的上界。详细推导了SVM变分问题、对偶问题,以及GACV的计算公式,建立了这些概念之间的理论联系。
  • 数值验证 :通过两个简单示例,绘制了 $\log_{10}(GACV)$ 和 $\log_{10}(GCKL)$ 关于不同参数的曲线,结果表明 $\log_{10} GACV$ 能很好地跟踪 $\log_{10} GCKL$,GACV的最小值是GCKL最小值的良好估计,验证了理论的有效性。

7.2 研究的局限性

  • 全局最小值求解困难 :GACV和GCKL曲线较为粗糙,在求解全局最小值时存在困难。由于曲线可能在活动约束集改变时出现跳跃或撕裂,且它们并非连续函数,这使得精确找到全局最优解变得极具挑战性。
  • 数据规模与计算复杂度 :留一法函数 $V_0(\lambda)$ 虽然可视为 $GCKL(\lambda)$ 的代理,但在大数据集中通常难以计算,这限制了该方法在大规模数据场景下的应用。

7.3 未来研究方向

  • 复杂情况研究 :继续深入研究GACV和GCKL在更复杂情况下的表现,例如处理高维数据、不平衡数据等场景,以拓展该方法的适用范围。
  • 优化求解算法 :探索更有效的优化算法,以克服求解全局最小值的困难。可以考虑使用启发式算法、自适应搜索算法等,提高求解效率和精度。
  • 实际应用验证 :将该方法应用到实际的分类问题中,如医学诊断、图像识别、金融风险评估等领域,验证其在实际场景中的有效性和实用性。

7.4 关键技术点总结

技术点 描述
SVM变分问题 找到形如 $f_{\lambda} = const + h$($h \in H_K$)的函数,使 $\frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_i) + + \lambda |h| {H_K}^2$ 最小化
对偶问题 通过将变分问题转化为对偶形式,求解 $\alpha$ 进而得到 $c$ 和 $d$
GCKL距离 $GCKL(p_{true}, f_{\lambda}) = E_{true} \left[ \frac{1}{n} \sum_{j = 1}^{n} g(y_j f_{\lambda j}) \right]$,不同 $g$ 函数有不同含义
GACV公式 $GACV(\lambda) = \frac{1}{n} \sum_{i = 1}^{n} (1 - y_i f_{\lambda i})_+ + \hat{D}(\lambda)$,其中 $\hat{D}(\lambda)$ 有具体表达式

7.5 研究流程总结

graph LR
    A[引入SVM变分问题] --> B[推导对偶问题]
    B --> C[定义GCKL距离]
    C --> D[使用留一法推导GACV]
    D --> E[数值实验验证]
    E --> F[总结成果与局限性]
    F --> G[确定未来研究方向]

综上所述,本文提出的GACV方法为SVM调优参数的选择提供了一种有效的途径,虽然存在一定的局限性,但具有广阔的研究和应用前景。未来的研究可以围绕上述方向展开,进一步完善该方法,使其更好地服务于实际分类问题。

【四轴飞行器】非线性三自由度四轴飞行器模拟器研究(Matlab代码实现)内容概要:本文围绕非线性三自由度四轴飞行器模拟器的研究展开,重点介绍了基于Matlab的建模与仿真方法。通过对四轴飞行器的动力学特性进行分析,构建了非线性状态空间模型,并实现了姿态与位置的动态模拟。研究涵盖了飞行器运动方程的建立、控制系统设计及数值仿真验证等环节,突出非线性系统的精确建模与仿真优势,有助于深入理解飞行器在复杂工况下的行为特征。此外,文中还提到了多种配套技术如PID控制、状态估计与路径规划等,展示了Matlab在航空航天仿真中的综合应用能力。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的高校学生、科研人员及从事无人机系统开发的工程技术人员,尤其适合研究生及以上层次的研究者。; 使用场景及目标:①用于四轴飞行器控制系统的设计与验证,支持算法快速原型开发;②作为教学工具帮助理解非线性动力学系统建模与仿真过程;③支撑科研项目中对飞行器姿态控制、轨迹跟踪等问题的深入研究; 阅读建议:建议读者结合文中提供的Matlab代码进行实践操作,重点关注动力学建模与控制模块的实现细节,同时可延伸学习文档中提及的PID控制、状态估计等相关技术内容,以全面提升系统仿真与分析能力。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值