大间隔分类器:原理、算法与应用
1. 简单分类问题
在分类问题中,我们常常会拿到一组训练数据 ( X = { x_1, …, x_m } \subseteq \mathbb{R}^N ) 和对应的标签 ( Y = { y_1, …, y_m } \subseteq { -1, 1 } )。我们的目标是找到一个决策函数 ( g: \mathbb{R}^N \to { -1, 1 } ),它能精准预测未见过的数据点的标签,也就是让分类误差最小。通常,我们会用一个实值预测函数 ( f: \mathbb{R}^N \to \mathbb{R} ),通过符号阈值处理得到最终的分类结果 ( g(x) = \text{sgn}(f(x)) )。
1.1 贝叶斯最优解
假如数据 ( X, Y ) 是从概率分布 ( p(x, y) ) 中独立同分布抽取的,且 ( p ) 已知,那么能使误分类概率 ( R(g) = \int_{\mathbb{R}^N \times { -1, 1 }} \mathbb{1}_{g(x) \neq y} p(x, y) dx dy ) 最小的函数是 ( g(x) = \text{sgn}(p(x, 1) - p(x, -1)) )。
以两个高斯簇的情况为例,假设 “+1” 和 “-1” 这两类分别由两个具有相同协方差矩阵 ( \Sigma )、中心分别在 ( \mu_+ ) 和 ( \mu_- ) 的高斯簇生成,即 ( p(x, y) = \frac{1}{2(2\pi)^{\frac{N}{2}} |\Sigma|^{\frac{1}{2}}} \begin{cases} e^{-\frac{1}{2} (x - \mu_+)^T \Sig
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



