支持向量机的概率输出方法研究
在实际的分类任务中,分类器输出经过校准的后验概率对于后续处理非常有用。然而,标准的支持向量机(SVM)无法直接提供这样的概率。本文将探讨如何对 SVM 进行改进,使其在保持稀疏性的同时输出后验概率,并通过实验对比几种方法的性能。
1. 引言
在实际识别场景中,构建能够输出后验概率 $P(class|input)$ 的分类器具有重要意义。后验概率可以结合效用模型进行决策,在整体决策的部分环节中,也需要将分类器的输出进行组合。例如,在语音识别中,使用维特比搜索或隐马尔可夫模型(HMM)将音素识别结果组合成单词识别。在多类别分类器中,基于最大后验概率选择类别是等损失情况下的贝叶斯最优决策。
但 SVM 输出的是未校准的值,并非概率。SVM 的未阈值化输出为:
[f(x) = h(x) + b]
其中:
[h(x) = \sum_{i} y_{i}\alpha_{i}k(x_{i}, x)]
$h(x)$ 位于由核函数 $k$ 诱导的再生核希尔伯特空间(RKHS)$F$ 中。训练 SVM 时,会最小化一个误差函数,该函数由训练误分类率的近似惩罚项和 $h$ 在 RKHS 中的范数惩罚项组成:
[SVM_{Error} = C\sum_{i} (1 - y_{i}f_{i}) {+} + \frac{1}{2}||h|| {F}]
最小化该误差函数可以同时最小化测试误分类率的上界,并且会产生一个稀疏机器,即最终机器中仅使用部分可能的核函数。
Wahba 提出了一种从核机器产生概率输出的方法,使用逻辑链接函数:
[P(class|input) = P(
超级会员免费看
订阅专栏 解锁全文
1420

被折叠的 条评论
为什么被折叠?



