支持向量机的边界分布与软间隔算法解析
1. 引言
在机器学习中,数据里的噪声会在每个学习问题中引入一种权衡。复杂的假设在训练集上可能非常准确,但与简单且稍有不准确的假设相比,其预测能力可能更差。因此,需要在假设的准确性和简单性之间找到正确的平衡,通常通过最小化一个由两部分组成的成本函数来实现,一部分描述假设的复杂性,另一部分衡量其训练误差。
对于线性函数,当我们根据输入的维度来参数化问题时,最小化训练误差数量的问题在计算上是不可行的。为了避免这个困境,我们通过一种基于边界值分布的不同函数来界定泛化能力,而不直接涉及训练误差。事实证明,最小化这个新准则可以高效地完成。
在考虑大边界分类器时,假设的复杂性通过其相对于数据的边界来衡量,噪声的存在会带来更多问题。例如,数据集可能是非可分的,其边界可能为负,这使得非不可知结果的应用变得不可能。此外,通过最大化边界找到的解决方案对训练点不稳定,训练集的微小修改可能会显著改变假设,这种脆弱性使得最大边界解决方案不太理想。这些问题催生了“软间隔”技术,该技术旨在通过允许在准确性和边界之间进行权衡,将大边界算法扩展到有噪声的情况。
尽管在将这种分析风格扩展到不可知情况以及应用于神经网络、提升算法和贝叶斯算法方面取得了成功,但人们担心在基于最小边界值的界定中,训练集实现的边界值分布的度量在很大程度上被忽略了。直观地说,一个严重依赖可能一小部分训练集位置的界定似乎丢失了一些信息。虽然已经引入了更鲁棒的算法,但鲁棒界定的问题直到最近才得到解决。
2. 边界分布对泛化能力的界定
我们考虑从二元分类的示例中进行学习。用 (X) 表示问题的域,输入序列表示为 (x = (x_1, \ldots, x_m) \in X^m)。训练序列通常表示为 (z = ((x_1, y_1), \ldots, (x_m, y_m)) \in (X \times {-1, 1})^m),训练示例集表示为 (S)。用 (E_{r_z}(f)) 表示函数 (f) 在序列 (z) 上的分类错误数量。
由于我们通常通过对实值函数进行阈值处理来进行分类,因此引入符号 (T_{\theta}(f)) 表示一个函数,如果 (f) 的输出大于或等于 (\theta),则输出为 1,否则为 -1。对于实值函数类 (H),类 (T_{\theta}(H)) 是派生的分类函数集。
定义 1:胖粉碎维度
设 (F) 是一组实值函数。如果存在由 (x \in X) 索引的实数 (r_x),使得对于由 (X) 索引的所有二元向量 (b),都存在一个函数 (f_b \in F) 满足:如果 (b_x = 1),则 (f_b(x) \geq r_x + \gamma);否则 (f_b(x) \leq r_x - \gamma),那么我们说一组点 (X) 被 (F) (\gamma) - 粉碎。
胖粉碎维度和边界对于学习的相关性在以下定理中得到体现,该定理根据与边界成比例的尺度上测量的底层函数类的胖粉碎维度来界定泛化误差。
定理 1
考虑一个实值函数类 (F),其胖粉碎维度由从右侧连续的函数 (fat : R \to N) 上界界定。固定 (\theta \in R)。那么,以至少 (1 - \delta) 的概率,一个学习者使用 (h = T_{\theta}(f) \in T_{\theta}(F)) 正确分类 (m) 个独立生成的示例 (S),且 (\gamma = \min_i y_i(f(x_i) - \theta) > 0),则 (h) 的误差将被上界界定为:
(\epsilon(m, k, \delta) = \frac{2}{m} \left( k \log_2 \left(\frac{8em}{k}\right) \log_2(32m) + \log_2 \left(\frac{8m}{\delta}\right) \right))
其中 (k = fat(\frac{\gamma}{8}) \leq em)。
接下来,我们定义一个从 (X) 派生的内积空间 (Lf(X))。
定义 2
设 (Lf(X)) 是 (X) 上具有可数支撑 (supp(f)) 的实值函数 (f) 的集合(即 (Lf(X)) 中的函数仅在可数多个点上非零),对于这些函数,平方值的和 (|f|^2 = \sum_{x \in supp(f)} f(x)^2) 收敛。我们定义两个函数 (f, g \in Lf(X)) 的内积为 (\langle f, g \rangle = \sum_{x \in supp(f)} f(x)g(x))。
对于任何固定的 (\Delta > 0),我们定义一个将 (X) 嵌入到内积空间 (X \times Lf(X)) 的映射 (\tau_{\Delta}: x \mapsto (x, \Delta \delta_x)),其中 (\delta_x \in Lf(X)) 定义为:如果 (y = x),则 (\delta_x(y) = 1);否则 (\delta_x(y) = 0)。将输入空间 (X) 嵌入到 (X \times Lf(X)) 中,将训练数据映射到一个可以由大边界分类器分离的空间,从而可以应用定理 1。
对于线性分类器 ((u, b)) 和边界 (\gamma \in R),我们定义:
(d((x, y), (u, b), \gamma) = \max{0, \gamma - y(\langle u, x \rangle - b)})
这个量表示 ((u, b)) 在点 ((x, y)) 上未能达到边界 (\gamma) 的程度,如果其边界大于 (\gamma),则为 0。对于误分类的点 ((x, y)),我们有 (d((x, y), (u, b), \gamma) > \gamma),因此误分类被视为更严重的边界误差,但不区分到单独的类别中。
我们将 ((u, b)) 扩展为线性泛函:
(\hat{u} = \begin{pmatrix} u, \frac{1}{\Delta} \sum_{(x,y) \in S} d((x, y), (u, b), \gamma) y \delta_x \end{pmatrix})
在空间 (X \times Lf(X)) 中,这个额外组件的作用恰好足以确保那些在输入空间中未能达到边界 (\gamma) 的训练点在扩展空间中达到边界。额外组件的代价体现在其对线性泛函范数平方的增加上,增加量为 (\frac{D(S, (u, b), \gamma)^2}{\Delta^2}),其中:
(D(S, (u, b), \gamma) = \sqrt{\sum_{(x,y) \in S} d((x, y), (u, b), \gamma)^2})
考虑到这些调整,并验证扩展分类器在训练集外的性能与原始线性函数完全匹配,我们得到以下定理:
定理 2
固定 (\Delta > 0),(b \in R)。考虑输入空间 (X) 上一个固定但未知的概率分布,其支撑在以原点为中心、半径为 (R) 的球内。那么,以 (1 - \delta) 的概率,对于随机抽取的大小为 (m) 的训练集 (S) 和所有 (\gamma > 0),在 (X) 上范数为 1 且在 (b) 处阈值化的线性分类器 (u) 的泛化能力被界定为:
(\epsilon(m, h, \delta) = \frac{2}{m} \left( h \log_2 \left(\frac{8em}{h}\right) \log_2(32m) + \log_2 \left(\frac{8m}{\delta}\right) \right))
其中 (h = \left\lfloor \frac{64.5(R^2 + \Delta^2)(1 + \frac{D(S, (u, b), \gamma)^2}{\Delta^2})}{\gamma^2} \right\rfloor)
前提是 (m \geq \frac{2}{\epsilon}),(h \leq em),并且在误分类的训练点上没有离散概率。
与定理 1 不同,定理 2 不要求线性分类器 ((u, b)) 正确分类训练数据。误分类的点会对 (D(S, (u, b), \gamma)) 的值有更大贡献,但不会改变结果的结构。这与它们对定理 1 的影响形成对比,在定理 1 中采用不可知版本会在泛化误差的表达式中引入平方根。
在实践中,我们希望根据数据选择参数 (\Delta) 以最小化得到的界定。为了获得对不同 (\Delta) 值都成立的界定,需要对有限子集的值多次应用定理 2。忽略常数并去掉分母 (\gamma^2) 后,(h) 表达式的最小值为 ((R + D)^2),当 (\Delta = \sqrt{RD}) 时取得。离散值集的选择应确保我们能很好地逼近这个最优值,解决方案是选择一个几何序列的值。
定理 3
固定 (b \in R)。考虑输入空间 (X) 上一个固定但未知的概率分布,其支撑在以原点为中心、半径为 (R) 的球内。那么,以 (1 - \delta) 的概率,对于随机抽取的大小为 (m) 的训练集 (S) 和所有 (\gamma > 0),使得对于某些 ((x, y) \in S) 有 (d((x, y), (u, b), \gamma) = 0),在 (X) 上满足 (|u| \leq 1) 的线性分类器 (u) 的泛化能力被界定为:
(\epsilon(m, h, \delta) = \frac{2}{m} \left( h \log_2 \left(\frac{8em}{h}\right) \log_2(32m) + \log_2 \left(\frac{2m(28 + \log_2(m))}{\delta}\right) \right))
其中 (h = \left\lfloor \frac{65[(R + D)^2 + 2.25RD]}{\gamma^2} \right\rfloor),(D = D(S, (u, b), \gamma)),前提是 (m \geq \max{\frac{2}{\epsilon}, 6}),(h \leq em),并且在误分类的训练点上没有离散概率。
这个界定可以用于对一些训练点进行误分类的分类器,误分类点的影响仅体现在 (D) 的值上,不会改变表达式的形式。这与传统的不可知界定不同,传统界定涉及胖粉碎维度与样本大小之比的平方根。如果一个点是极端离群点,它对 (D) 的影响可能会使界定比使用不可知方法得到的更差,但在通常情况下,这里给出的界定可能会比标准的不可知界定显著更紧。此外,与最小化误分类数量的计算困难相比,存在一种高效的算法来优化定理 3 中给出的 (h) 值。
下面是一个简单的流程图,展示了上述步骤的主要流程:
graph TD;
A[定义问题和数据] --> B[引入胖粉碎维度和相关定理];
B --> C[定义内积空间和嵌入映射];
C --> D[计算调整量和扩展线性泛函];
D --> E[得出泛化能力界定定理];
E --> F[考虑实际参数选择和优化];
3. 软间隔算法的解释
上一节发展的理论提供了一种将非线性可分问题转化为可分问题的方法,通过将数据映射到更高维空间,这种技术可以看作是像支持向量机一样使用核函数。
那么,是否有可能给出一种在扩展空间中学习大边界超平面的有效算法呢?这将自动给出一种选择超平面和 (\gamma) 值的算法,使得在原始空间中的边界分布能使定理 3 的界定最小化。结果表明,不仅答案是肯定的,而且这样的算法已经存在。
上一节定义的映射 (\tau) 隐式地定义了一个核函数:
(k(x, x’) = \langle \tau_{\Delta}(x), \tau_{\Delta}(x’) \rangle = \langle (x, \Delta \delta_x), (x’, \Delta \delta_{x’}) \rangle = \langle x, x’ \rangle + \Delta^2 \langle \delta_x, \delta_{x’} \rangle = \langle x, x’ \rangle + \Delta^2 \delta_x(x’))
使用这些核函数,支持向量机的决策函数将是:
(f(x) = \sum_{i = 1}^{m} \alpha_i y_i k(x, x_i) + b = \sum_{i = 1}^{m} \alpha_i y_i \left[ \langle x, x_i \rangle + \Delta^2 \delta_x(x_i) \right] + b)
拉格朗日乘子 (\alpha_i) 可以通过在正象限中最小化对偶目标函数的二次规划问题来获得:
(L = \sum_{i = 1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j = 1}^{m} y_i y_j \alpha_i \alpha_j k(x_i, x_j) = \sum_{i = 1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j = 1}^{m} y_i y_j \alpha_i \alpha_j \left[ \langle x_i, x_j \rangle + \Delta^2 \delta_{i}(j) \right] = \sum_{i = 1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j = 1}^{m} y_i y_j \alpha_i \alpha_j \langle x_i, x_j \rangle - \Delta^2 \frac{1}{2} \sum_{i = 1}^{m} \alpha_i^2)
这正是通过解决软间隔问题(如 Cortes 和 Vapnik 1995 年附录中所述的情况之一)所得到的对偶二次规划问题:
- 最小化:(\frac{1}{2} \langle u, u \rangle + C \sum_{i} \xi_i^2)
- 约束条件:(y_j [\langle u, x_j \rangle - b] \geq 1 - \xi_j),(\xi_i \geq 0)
他们得到的解是:
(L = \sum \alpha_i - \sum y_i y_j \alpha_i \alpha_j \langle x_i, x_j \rangle - \frac{1}{4C} \sum \alpha_i^2)
这清楚地表明了他们公式中的权衡参数 (C) 与核参数 (\Delta) 之间的关系。
以下是一个表格,总结了核函数和软间隔问题的相关信息:
| 项目 | 表达式 |
| ---- | ---- |
| 核函数 (k(x, x’)) | (\langle x, x’ \rangle + \Delta^2 \delta_x(x’)) |
| 决策函数 (f(x)) | (\sum_{i = 1}^{m} \alpha_i y_i \left[ \langle x, x_i \rangle + \Delta^2 \delta_x(x_i) \right] + b) |
| 对偶目标函数 (L) | (\sum_{i = 1}^{m} \alpha_i - \frac{1}{2} \sum_{i,j = 1}^{m} y_i y_j \alpha_i \alpha_j \langle x_i, x_j \rangle - \Delta^2 \frac{1}{2} \sum_{i = 1}^{m} \alpha_i^2) |
| 软间隔最小化问题 | (\frac{1}{2} \langle u, u \rangle + C \sum_{i} \xi_i^2) |
| 软间隔解 (L) | (\sum \alpha_i - \sum y_i y_j \alpha_i \alpha_j \langle x_i, x_j \rangle - \frac{1}{4C} \sum \alpha_i^2) |
4. 相关技术
另一种看待这种技术的方式是,优化软间隔或扩大边界分布相当于用协方差矩阵 (K’) 替换协方差矩阵 (K):
(K’ = K + \lambda I)
其中 (K’) 的对角线更重。同样,权衡参数 (\lambda) 与前面公式中的 (\Delta) 和 (C) 之间存在简单的关系。因此,与其使用软间隔算法,在将 (\lambda I) 添加到协方差矩阵后,可以使用(更简单的)硬间隔算法。这种方法也被 Smola 和 Schölkopf 用于回归情况,他们还引入了对 (\alpha) 大小的上限,以提高对离群点的鲁棒性。
以下是一个实验结果的描述,展示了在 UCI 存储库的电离层数据上进行的实验结果。图中绘制了不同 (\lambda) 值下的泛化误差:
graph LR;
A[不同λ值] --> B[计算泛化误差];
B --> C[绘制泛化误差曲线];
这个技术在经典统计学中是众所周知的,有时被称为“收缩方法”。在贝叶斯判别中,它建议用连接经验协方差函数 (\Sigma) 和单位矩阵 (I) 的直线上的某个元素 ((1 - \lambda)\Sigma + \lambda I) 替换 (\Sigma),然后去除一个冗余的自由度,得到新的协方差 (\Sigma + \lambda I)。在线性回归的情况下,这种技术(称为岭回归)可以从假设目标值上的高斯噪声推导出来。它最初是由偏差和方差之间的权衡所推动的,并导致了一种权重衰减形式。这种方法在 Tikhonov 正则化的意义上等同于一种正则化形式。
以下是相关技术的对比表格:
| 技术名称 | 原理 | 应用场景 | 优点 |
| ---- | ---- | ---- | ---- |
| 软间隔算法 | 允许在准确性和边界之间进行权衡,通过映射数据到高维空间 | 处理非线性可分问题 | 可将非线性可分问题转化为可分问题 |
| 收缩方法(添加 (\lambda I) 到协方差矩阵) | 用 (K + \lambda I) 替换协方差矩阵 (K) | 提高对离群点的鲁棒性 | 可使用更简单的硬间隔算法 |
| 岭回归 | 假设目标值上的高斯噪声,从偏差和方差权衡推导 | 线性回归 | 导致权重衰减,实现正则化 |
从算法角度来看,这些核函数仍然给出一个正定矩阵,并且与硬间隔情况相比,问题的条件更好,因为特征值都增加了 (\lambda)。所谓的盒约束算法(最小化松弛变量的 1 - 范数)与这里考虑的 2 - 范数情况不可直接比较。
需要注意的是:
(R \sqrt{\sum_{i} \xi_i^2} = RD = \Delta^2 = \lambda = \frac{1}{4C})
因此,边界分布界定中 (\gamma) 的选择控制了软间隔设置中的参数 (C) 以及正则化设置中的权衡参数 (\lambda)。一个合理的 (\gamma) 选择可以是最小化某个 VC 容量界定的值,例如在扩展空间中最大化边界,或控制其他参数(边界、特征值、半径等)。直观地说,小的 (\gamma) 对应于小的 (\lambda) 和大的 (C),意味着假设噪声较小,因此不需要太多正则化;反之,大的 (\gamma) 对应于大的 (\lambda) 和小的 (C),对应于假设高噪声水平。在回归情况下也有类似的关系。
5. 结论
上述分析为处理大边界分类器中的噪声数据提供了一种有原则的方法,并为 Cortes 和 Vapnik 最初提出的软间隔算法提供了理论依据。我们证明了其中一种算法恰好最小化了通过边界分布分析提供的泛化界定,并且等同于使用核函数的扩展版本。许多为硬间隔情况开发的技术可以扩展到软间隔情况,只要它们使用的量可以根据修改后的核函数(边界、球的半径、特征值等)进行测量。
这些算法与正则化技术以及在不同框架中为处理噪声而开发的其他方法密切相关。在计算上,这些算法可能比标准的最大边界方法更稳定,问题的条件也更好。
同样的证明技术还可以用于为分类情况下的非线性函数以及具有不同损失的线性和非线性回归情况产生类似的界定。
综上所述,通过对边界分布和软间隔算法的研究,我们在处理噪声数据和优化分类器性能方面取得了重要进展,为机器学习领域的实际应用提供了更有效的工具和理论支持。
以下是整个流程的总结列表:
1. 引入胖粉碎维度和相关定理,界定泛化误差。
2. 定义内积空间和嵌入映射,将数据映射到高维空间。
3. 计算调整量和扩展线性泛函,得出泛化能力界定定理。
4. 考虑实际参数选择和优化,选择合适的 (\Delta) 和 (\gamma) 值。
5. 解释软间隔算法,通过核函数将非线性可分问题转化为可分问题。
6. 介绍相关技术,如收缩方法和岭回归,对比不同技术的特点。
7. 总结结论,强调算法的优势和应用范围。
超级会员免费看
4

被折叠的 条评论
为什么被折叠?



