支持向量机与线性分类器概率校准技术解析
1. 支持向量机基础
线性可分数据存在无数个能分隔不同类别的决策边界,但直观上,有些边界比其他的更好。为了更精确地衡量,我们定义一个示例的间隔为 $c(x)\hat{s}(x)$,其中 $c(x)$ 对于正例为 +1,对于负例为 -1,$\hat{s}(x)$ 是示例 $x$ 的得分。若 $\hat{s}(x) = w·x - t$,则真正例 $x_i$ 的间隔为 $w · x_i - t > 0$,真负例 $x_j$ 的间隔为 $-(w · x_j - t) > 0$。
对于给定的训练集和决策边界,设 $m_⊕$ 为所有正例中的最小间隔,$m_⊖$ 为所有负例中的最小间隔,我们希望它们的和尽可能大。这个和与决策阈值 $t$ 无关,只要我们保证最近的正例和负例位于决策边界的正确一侧,就可以调整 $t$ 使 $m_⊕$ 和 $m_⊖$ 相等。
训练示例中离决策边界最近的被称为支持向量,支持向量机(SVM)的决策边界被定义为支持向量的线性组合。间隔定义为 $m/||w||$,其中 $m$ 是决策边界与最近训练实例(每个类别至少一个)沿 $w$ 方向的距离。通常选择 $m = 1$,最大化间隔就相当于最小化 $||w||$ 或更方便地最小化 $\frac{1}{2}||w||^2$,前提是没有训练点落在间隔内。这就引出了一个二次约束优化问题:
[
w^ ,t^ = \arg\min_{w,t} \frac{1}{2}||w||^2
]
[
\text{subject to } y_i(w·x_i - t) \geq 1, 1 \leq i \leq n
超级会员免费看
订阅专栏 解锁全文
17

被折叠的 条评论
为什么被折叠?



