1、大间隔分类器：原理、算法与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/docker7nomad/article/details/154675987

大间隔分类器：原理、算法与应用

1. 简单分类问题

在分类问题中，我们常常会拿到一组训练数据 ( X = { x_1, …, x_m } \subseteq \mathbb{R}^N ) 和对应的标签 ( Y = { y_1, …, y_m } \subseteq { -1, 1 } )。我们的目标是找到一个决策函数 ( g: \mathbb{R}^N \to { -1, 1 } )，它能精准预测未见过的数据点的标签，也就是让分类误差最小。通常，我们会用一个实值预测函数 ( f: \mathbb{R}^N \to \mathbb{R} )，通过符号阈值处理得到最终的分类结果 ( g(x) = \text{sgn}(f(x)) )。

1.1 贝叶斯最优解

假如数据 ( X, Y ) 是从概率分布 ( p(x, y) ) 中独立同分布抽取的，且 ( p ) 已知，那么能使误分类概率 ( R(g) = \int_{\mathbb{R}^N \times { -1, 1 }} \mathbb{1}_{g(x) \neq y} p(x, y) dx dy ) 最小的函数是 ( g(x) = \text{sgn}(p(x, 1) - p(x, -1)) )。

以两个高斯簇的情况为例，假设 “+1” 和 “-1” 这两类分别由两个具有相同协方差矩阵 ( \Sigma )、中心分别在 ( \mu_+ ) 和 ( \mu_- ) 的高斯簇生成，即 ( p(x, y) = \frac{1}{2(2\pi)^{\frac{N}{2}} |\Sigma|^{\frac{1}{2}}} \begin{cases} e^{-\frac{1}{2} (x - \mu_+)^T \Sig