19、支持向量与统计力学在支持向量机泛化性能研究中的应用

支持向量与统计力学在支持向量机泛化性能研究中的应用

1. 引言

许多用于估计学习机泛化能力的理论方法,是基于通用的、与分布无关的边界。但这些边界即使在非常不利的数据生成机制下也成立,所以在不那么悲观的情况下,我们并不清楚它们的紧密程度。因此,研究非平凡学习问题的模型很重要,通过这些模型,我们可以得到训练好的学习机的泛化误差和其他属性的精确结果。统计力学为此提供了一种构建和分析学习情况的方法。

统计力学是理论物理学的一个领域,用于对由许多相互作用实体组成的复杂系统进行概率描述。最初用于研究非晶材料特性的工具,使我们能够在可调参数和示例数量较大时,针对特定类型的数据分布对学习机的性能进行可控的分析实验。通常统计理论为训练数据样本大小远大于学习机内在复杂度的情况提供渐近结果,而统计力学的“热力学极限”则允许模拟相对样本量较小的影响,即让样本大小和参数数量都趋于无穷大,但保持适当的比例固定。自Elizabeth Gardner的开创性工作以来,这种方法在过去十年中已成功应用于神经网络领域的各种问题,本文将探讨其在支持向量机(SVM)学习中的应用。

2. 基本SVM设置

我们主要关注SVM分类器。它由一个从输入向量$x \in R^N$到特征空间$F$的非线性映射$\Phi(·)$定义。该映射通过SVM核$k(x, y)$的特征向量$\psi_j(x)$和特征值$\lambda_j$构建:
$\Phi(x) = (\sqrt{\lambda_1}\psi_1(x), \sqrt{\lambda_2}\psi_2(x), …)$

SVM的输出$y$可以表示为特征空间中的线性分类:
$sgn (\Phi(x) \cdot w) = sgn \left(\sum_{j=1}^{N_F} \sqrt{\lambda_j}\psi_j(x)w_j \right)$

为简单起见,我们将偏置项设为零。在可实现的设置中,权重$w_j$($j = 1, … , N_F$)通过在$y(\Phi(x) \cdot w) \geq1$的约束下最小化二次函数$\frac{1}{2}||w||^2$来调整,以适应一组示例对${(y_1, x_1), … , (y_m, x_m)}$。

3. 学习问题

我们假设一个简单的无噪声场景,数据生成在“师生框架”内建模。即假设一个与目标机器具有相似表示的分类器(教师)为一组随机生成的输入数据提供正确输出。泛化误差可以衡量为教师和学生机器在随机输入上的分歧概率。在我们的例子中,我们选择如下表示:
$y_i = sgn \left(\sum_{j} \sqrt{\lambda_j}B_j\psi_j(x_i) \right)$

所有非零分量假设是从均值为零、方差为1的分布中独立随机选择的。我们还会考虑一部分$B_j$为0的情况,以调整规则的复杂度。最后,输入$x_i$是在超立方体${-1, 1}^N$上具有均匀概率分布$D(x)$的独立随机向量,我们关注SVM在这些分布上的平均性能。

我们专注于一类形式为$k(x, y) = K(\frac{x·y}{N})$的核,为简单起见,设$K(0) = 0$。这些核在输入向量的分量上具有置换对称性,当$K(z) = z$时,包含简单的感知器边际分类器作为特殊情况。对于二进制输入向量$x \in {-1, 1}^N$,这类核的特征值分解是已知的。特征函数是输入向量分量的乘积,即$\psi_i(x) = 2^{-N/2} \prod_{j\in S_i} x_j$,这是简单的单项式,其中$S_i \subseteq {1, … , N}$是$x$分量的子集。相应的特征值为$\lambda_i = 2^{N/2} \sum_{x} k(e, x)\psi_i(x)$,其中$e = (1, … , 1)^T$,它们仅取决于集合$S_i$的基数$|S_i|$。

特征值和特征函数的相关性质如下表所示:
| $|S_i|$ | 特征函数 | 特征值 |
| ---- | ---- | ---- |
| 1 | $x_j$($j = 1, … , N$) | 与$|S_i|$相关,$\lambda_i \approx \frac{2^N}{N|S_i|} K^{(|S_i|)}(0)$ |
| 2 | $x_ix_j$($N(N -1)/2$个) | 与$|S_i|$相关,$\lambda_i \approx \frac{2^N}{N|S_i|} K^{(|S_i|)}(0)$ |

随着输入维度$N$的增大,特征值$\lambda_i$会随着$|S_i|$的增加而迅速减小,但它们的简并度会像$n_{|S_i|} = \binom{N}{|S_i|} \approx N^{|S_i|}/|S_i|!$一样强烈增加,这使得不同基数$l$的特征值的总体贡献$\sum_{|S_i|=l} \lambda_in_{|S_i|}$处于同一数量级。

4. 统计力学方法

将SVM学习映射到统计力学问题的基本思想是定义一个关于权重$w$的(吉布斯)测度$p_{\beta}(w)$,在特定极限下,它集中在训练好的SVM的权重上:
$p_{\beta}(w) = \frac{1}{Z} e^{-\frac{1}{2} \beta||w||^2} \prod_{i=1}^{m} \Theta \left(y_i \sum_{j=1}^{N_F} \sqrt{\lambda_j}\psi_j(x_i)w_j -1 \right)$

其中$\Theta(x)$是单位阶跃函数,当$x \geq0$时等于1,否则为0,$Z$用于归一化分布。当$\beta \to \infty$时,该分布集中在$||w||^2$的最小值上,此时$\Theta$函数的所有参数均为非负,这与SVM二次规划问题的条件等价。

统计力学方法的策略是计算与权重向量$w$相关的有趣量的期望,这些期望是在分布$p_{\beta}(w)$和训练数据分布上进行的,最后取$\beta \to \infty$的极限。这些平均过程只有在$N \to \infty$和$m \to \infty$的极限下才能进行解析计算,需要各种微妙和非平凡的操作。其中一种技术是应用中心极限定理(在“热力学极限”下有效)来计算随机输入的期望,利用特征$\psi_j$相对于所选输入分布的正交性。这也是我们更喜欢在高维特征空间而不是使用低维核表示的主要原因。

以下是统计力学方法的流程:

graph TD
    A[定义吉布斯测度$p_{\beta}(w)$] --> B[计算相关量在$p_{\beta}(w)$和训练数据分布上的期望]
    B --> C[取$\beta \to \infty$的极限]
    C --> D[分析结果]

我们分析的结果取决于$N \to \infty$和$m \to \infty$的方式。一般来说,只有当$m = O (N_F)$时,泛化误差$\epsilon_g$才会趋于零,因为$N_F$是数据模型的参数数量。然而,当映射$\Phi$包含相当强的线性部分时,$\epsilon_g$可能在$m = \alpha N$的规模上就会降至较小值。因此,在取$N \to \infty$的极限时,我们采用一般假设$m = \alpha N^l$($l \in N$),并通过改变$l$来讨论泛化性能的不同区域。

5. 结果I:一般情况

计算得出的一个最基本和自然的量是所谓的序参数,对于SVM,其定义为:
$R = \sum_{i} \Lambda_i\langle w_iB_i\rangle$

其中$\Lambda_i := \lambda_i/2^N$,$\langle…\rangle$表示关于分布$p_{\beta}(w)$、数据分布和教师向量分布的平均。$R$是教师和SVM学生权重向量之间的加权重叠,通过它我们可以将泛化误差表示为:
$\epsilon_g = \frac{1}{\pi} \arccos\frac{R}{\sqrt{Bq}}$

其中$B = \sum_{i} \Lambda_i\langle (B_i)^2\rangle$和$q_0 = \sum_{i} \Lambda_i\langle (w_i)^2\rangle$分别表示教师和学生权重向量的特定平方范数。需要注意的是,根据$\epsilon_g$的特定形式,当学生向量与教师向量指向相同方向时,无论学生向量的长度如何,教师的规则都能被完美学习。此外,分析来自不同复杂度(即基数$|S_i|$)的特征向量的贡献,将有助于我们直观理解SVM对规则的推断。

作为分析的一般结果,如果示例数量按$m = \alpha N^l$进行缩放:
- 所有高阶分量$B_i$完全不确定,即$R^{(+)} := \sum_{|S_i|>l} \Lambda_i\langle w_iB_i\rangle \to 0$,并且$q^{(+)} 0 := \sum {|S_i|>l} \Lambda_i\langle (w_i)^2\rangle \to 0$(在大$N$极限下)。这并不意味着相应权重$w_i$的值为零,只是它们在极限下对加权和$R$的贡献太小。
- 所有低阶分量完全确定,即对于所有$|S_i| < l$的$i$,有$w_i = cB_i$,其中$c$仅取决于$\alpha$。在规模$l$下实际学习的唯一分量是$|S_i| = l$的那些。

为了说明这种行为,我们研究形式为$K(x) = (1 - d)x^2 + dx$的二次核,其中参数$d$($0 < d < 1$)控制SVM映射的非线性程度。最低复杂度的特征向量是$N$个线性单项式$\sim x_j$,其余的是$N(N - 1)/2$个形式为$x_ix_j$的二次项。学习曲线如图20.1所示,同时包含了模拟结果以供比较。

如果示例数量与输入维度成线性比例,即$m = \alpha N$,SVM只能学习教师规则的线性部分。由于没有足够的信息来推断教师二次部分的其余$N(N - 1)/2$个权重,SVM的泛化误差在$\alpha \to \infty$时达到非零平台,根据$\epsilon_g(\alpha) - \epsilon_g(\infty) \sim \alpha^{-1}$,平台高度为$\epsilon_g(\infty) = \pi^{-1} \arccos(d)$,当$d = 1$(核完全线性)时为零,当$d = 0$(仅存在二次特征)时为$\frac{1}{2}$。

如果示例数量与$N$成二次比例增长,即$m = \alpha N^2$,泛化误差将渐近地以$\sim 1/\alpha$的方式趋近于零,且预因子不依赖于$d$。

对于阶数$z > 2$的多项式核,在$m = \alpha N^l$($l < z$)的规模上,泛化误差在$\alpha \to \infty$时下降到一个平台,其值为:
$\epsilon_g = \frac{1}{\pi} \arccos \sqrt{\frac{\sum_{j=1}^{l} \frac{K^{(j)}(0)}{j!}}{K^{(1)}}}$

只有在最高规模$m = \alpha N^z$时,泛化误差才会渐近地趋近于零,即$\epsilon_g \approx \frac{0.500489}{z!} \alpha^{-1}$。

6. 结果II:过拟合

接下来,我们研究SVM在学习复杂度远低于映射$\Phi$的规则时应对过拟合问题的能力。我们通过保持SVM为二次,但选择由简单线性分离示例定义的数据生成机制来建模此问题,即设置$|B_i| = 1$($|S_i| = 1$),$|B_i| = 0$(高阶分量)。

我们得到的泛化误差结果如图20.2所示,示例数量按$m = \alpha N$进行缩放。令人惊讶的是,尽管SVM的复杂度远高于底层规则,但仅观察到相当弱的过拟合形式。SVM能够在$m = \alpha N$的正确规模上学习$N$个教师权重$B_i$,渐近收敛率为$\epsilon_g \sim \alpha^{-2/3}$。如果我们使用简单的线性SVM执行相同任务,学习底层概念的速度仅略快,为$\epsilon_g \sim \alpha^{-1}$。

我们可以将这些结果与引言章节中描述的关于期望泛化误差的简单边界进行比较。例如,支持向量数量与总示例数量$m$的比率的期望为$\epsilon_g$提供了一个上界。在统计力学方法中计算支持向量的期望数量,得到该边界的渐近衰减为$\sim \alpha^{-1/3}$,其衰减速度比实际的$\epsilon_g$慢。

7. 结果III:对输入密度的依赖

我们可以预期,如果输入密度与教师的概念以有利的方式共同作用,规则的学习将更快。我们通过构建一个与教师权重$B_i$相关的输入分布来模拟这种情况,该分布在教师的决策边界周围有一个大小为$2\gamma$的零密度间隙。在这种情况下,我们期望正例和反例之间有较大的间隔。该模型的密度形式为$D(x) \sim \Theta \left(|\sum_{i} \sqrt{\lambda_i}B_{\rho}\psi_i(x)| - \gamma \right)$。

对于从二次教师规则学习的二次SVM,我们观察到泛化误差的衰减比均匀密度情况下更快。然而,在线性规模$m = \alpha N$上,渐近衰减仍然是$\epsilon_g(\alpha) - \epsilon_g(\infty) \sim \alpha^{-1}$的形式。在最高规模$m = \alpha N^2$上,泛化误差以$\epsilon_g \sim \alpha^{-3}e^{-\hat{c}(\gamma)\alpha^2}$的方式降至零。在这种情况下,真实泛化误差与基于支持向量比例的简单边界之间的不匹配更加明显,后者仅以代数方式随$\alpha$减小。

8. 讨论与展望

本文通过统计力学方法分析了支持向量机的性能。这些方法在高维输入空间的极限下,针对某些简单分布给出了与分布相关的泛化误差结果。尽管这种方法有一定局限性,但它对机器学习社区仍有一定意义。一些在本文中讨论的现象,在基于严格边界的其他更通用方法中也能定性观察到,但统计力学方法在“热力学极限”下能给出定量精确的结果,与大型系统的模拟结果有很好的一致性,可用于在受控分析实验中检查边界的紧密程度,也有助于了解如何改进边界或用更好的启发式方法替代。

目前我们的结果仅限于无噪声场景,但将该方法扩展到有噪声数据是直接可行的,也可以将带有误差的SVM训练(导致具有松弛变量的更高级优化问题)纳入形式体系。我们期望我们的分析能为模型选择标准的性能提供见解,这些标准用于根据噪声调整SVM学习算法的参数。我们已经在无噪声情况下表明,像支持向量相对数量这样非常简单的统计量可能会对泛化误差的收敛速率给出错误预测,未来值得研究基于间隔的更复杂估计是否能给出更紧密的边界。

支持向量与统计力学在支持向量机泛化性能研究中的应用

9. 总结与关键发现回顾

为了更清晰地梳理本文的主要内容,我们将关键发现总结如下表:
|研究方面|主要结论|
| ---- | ---- |
|一般结果| - 示例数量按$m = \alpha N^l$缩放时,高阶分量$B_i$不确定,低阶分量确定
- 不同规模下泛化误差表现不同,如二次核在$m = \alpha N$和$m = \alpha N^2$有不同收敛情况
- 多项式核在不同规模下泛化误差有相应平台值或趋近于零|
|过拟合| SVM在学习低复杂度规则时过拟合较弱,渐近收敛率$\epsilon_g \sim \alpha^{-2/3}$,比简单线性SVM略慢|
|输入密度依赖| 有利输入密度使学习更快,在$m = \alpha N^2$规模下泛化误差以$\epsilon_g \sim \alpha^{-3}e^{-\hat{c}(\gamma)\alpha^2}$降至零|

从这些结果可以看出,示例数量的缩放方式、核的类型以及输入密度等因素都对SVM的泛化性能有着显著影响。例如,在一般结果中,不同的$l$值决定了SVM能够学习的分量复杂度,从而影响泛化误差的收敛情况。过拟合部分表明,SVM即使复杂度较高,在特定情况下也能较好地学习低复杂度规则。而输入密度的影响则体现了数据分布对学习效果的重要性。

10. 实际应用中的启示

在实际应用SVM时,这些研究结果可以为我们提供以下指导:
- 示例数量规划 :根据所需学习的规则复杂度,合理规划示例数量。如果规则较为简单,如线性规则,$m = \alpha N$的规模可能就足够;但如果规则复杂度较高,如高阶多项式规则,则需要更大规模的示例,如$m = \alpha N^z$。
- 核函数选择 :考虑核函数的非线性程度。对于线性规则,线性核可能就足够;而对于复杂规则,可能需要使用非线性核,但要注意过拟合问题。例如,在过拟合研究中,二次SVM在学习线性规则时虽然过拟合较弱,但仍需谨慎选择。
- 输入数据处理 :尽量使输入数据的密度与教师概念有利地结合。可以通过构建具有间隙的输入分布等方式,提高学习效率,降低泛化误差。

以下是一个简单的决策流程图,帮助在实际应用中选择合适的示例数量和核函数:

graph LR
    A[规则复杂度] --> B{简单(线性)}
    B -- 是 --> C[选择线性核,考虑$m = \alpha N$示例数量]
    B -- 否 --> D{复杂(高阶多项式)}
    D -- 是 --> E[选择合适非线性核,考虑$m = \alpha N^z$示例数量]
    D -- 否 --> F[根据具体情况选择核和示例数量]
11. 未来研究方向

尽管本文已经取得了一些有意义的结果,但仍有许多方面值得进一步研究:
- 噪声场景深入研究 :目前的研究主要集中在无噪声场景,未来可以深入研究有噪声数据下SVM的性能。分析噪声的类型、强度对泛化误差和学习效果的影响,以及如何通过调整算法参数来应对噪声。
- 更复杂核函数研究 :可以探索更复杂的核函数,如非多项式核、自适应核等。研究这些核函数在不同数据分布和规则复杂度下的性能,为实际应用提供更多选择。
- 模型选择标准优化 :进一步研究基于间隔等更复杂的估计方法,优化模型选择标准,使其能够更准确地预测泛化误差,提高SVM的性能。

12. 结论

本文通过统计力学方法对支持向量机的泛化性能进行了深入研究。在高维输入空间的极限下,针对特定简单分布,得到了关于泛化误差的定量精确结果。研究涵盖了一般情况、过拟合以及输入密度依赖等多个方面,揭示了示例数量、核函数和输入密度等因素对SVM泛化性能的影响。

这些结果不仅有助于我们理解SVM的学习机制,还为实际应用提供了有价值的指导。未来的研究可以在噪声场景、复杂核函数和模型选择标准等方面进一步拓展,以提高SVM在各种实际问题中的性能。通过不断深入研究和优化,支持向量机有望在机器学习领域发挥更大的作用。

总之,统计力学方法为SVM的研究提供了一种有效的途径,未来的研究可以在此基础上不断完善和发展,推动机器学习技术的进步。

【四旋翼无人机】具备螺旋桨倾斜机构的全驱动四旋翼无人机:建模控制研究(Matlab代码、Simulink仿真实现)内容概要:本文围绕具备螺旋桨倾斜机构的全驱动四旋翼无人机展开研究,重点探讨其系统建模控制策略,结合Matlab代码Simulink仿真实现。文章详细分析了无人机的动力学模型,特别是引入螺旋桨倾斜机构后带来的全驱动特性,使其在姿态位置控制上具备更强的机动性自由度。研究涵盖了非线性系统建模、控制器设计(如PID、MPC、非线性控制等)、仿真验证及动态响应分析,旨在提升无人机在复杂环境下的稳定性和控制精度。同时,文中提供的Matlab/Simulink资源便于读者复现实验并进一步优化控制算法。; 适合人群:具备一定控制理论基础和Matlab/Simulink仿真经验的研究生、科研人员及无人机控制系统开发工程师,尤其适合从事飞行器建模先进控制算法研究的专业人员。; 使用场景及目标:①用于全驱动四旋翼无人机的动力学建模仿真平台搭建;②研究先进控制算法(如模型预测控制、非线性控制)在无人机系统中的应用;③支持科研论文复现、课程设计或毕业课题开发,推动无人机高机动控制技术的研究进展。; 阅读建议:建议读者结合文档提供的Matlab代码Simulink模型,逐步实现建模控制算法,重点关注坐标系定义、力矩分配逻辑及控制闭环的设计细节,同时可通过修改参数和添加扰动来验证系统的鲁棒性适应性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值