斯坦福CS229机器学习笔记:支持向量机(SVM)原理详解
1. 引言
支持向量机(Support Vector Machine, SVM)是机器学习中最强大和最广泛使用的算法之一。本文将深入讲解SVM的核心概念,包括边界、函数边界与几何边界、最优边界分类器、拉格朗日对偶性以及核方法等关键内容。
2. 边界概念的直观理解
2.1 分类边界的直观认识
在逻辑回归中,我们通过sigmoid函数将线性预测转换为概率。当θᵀx≥0时,我们预测y=1。θᵀx的值越大,我们对预测的信心就越强。类似地,对于y=0的情况,θᵀx越小,预测信心越强。
2.2 几何边界的可视化
考虑一个二分类问题,我们可以画出分类超平面(decision boundary)。数据点距离分类边界越远,我们对预测的信心就越高。例如:
- 远离边界的点A:预测信心很高
- 靠近边界的点C:预测信心较低
- 中间位置的点B:预测信心适中
3. SVM的数学表示
3.1 新的记号系统
为了简化SVM的推导,我们采用新的记号:
- 分类标签y ∈ {-1,1}(而非{0,1})
- 分类器表示为h_{w,b}(x)=g(wᵀx+b)
- 当z≥0时,g(z)=1
- 当z<0时,g(z)=-1
这种表示方法将截距项b与其他参数分开,更便于后续推导。
4. 函数边界与几何边界
4.1 函数边界(Functional Margin)
对于训练样本(x⁽ⁱ⁾,y⁽ⁱ⁾),函数边界定义为: γ̂⁽ⁱ⁾ = y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b)
函数边界越大,表示预测越可信且正确。但函数边界有一个问题:通过缩放w和b可以任意增大边界值,而不改变分类器本身。
4.2 几何边界(Geometric Margin)
几何边界γ⁽ⁱ⁾表示点到分类边界的实际距离: γ⁽ⁱ⁾ = y⁽ⁱ⁾((w/||w||)ᵀx⁽ⁱ⁾ + b/||w||)
几何边界不受参数缩放的影响,具有更好的解释性。
5. 最优边界分类器
5.1 优化问题表述
我们希望找到能最大化几何边界的分类器,可以表述为: max γ s.t. y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b) ≥ γ, ∀i ||w|| = 1
5.2 问题转化
通过引入缩放约束γ̂=1,将问题转化为: min (1/2)||w||² s.t. y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b) ≥ 1, ∀i
这是一个凸二次规划问题,可以用标准QP软件求解。
6. 拉格朗日对偶性
6.1 拉格朗日函数
对于约束优化问题,我们可以构造拉格朗日函数: L(w,b,α) = (1/2)||w||² - Σα⁽ⁱ⁾[y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b)-1]
6.2 KKT条件
最优解满足KKT条件:
- 梯度为零
- 原始约束满足
- 对偶约束满足
- 互补松弛条件:α⁽ⁱ⁾g⁽ⁱ⁾(w)=0
6.3 对偶问题
通过求解对偶问题: max W(α) = Σα⁽ⁱ⁾ - (1/2)Σy⁽ⁱ⁾y⁽ʲ⁾α⁽ⁱ⁾α⁽ʲ⁾<x⁽ⁱ⁾,x⁽ʲ⁾> s.t. α⁽ⁱ⁾ ≥ 0, Σα⁽ⁱ⁾y⁽ⁱ⁾=0
我们可以更高效地找到最优解。
7. 核方法(Kernels)
7.1 特征映射
核方法的关键思想是将输入特征映射到高维空间,使数据在新空间中线性可分。例如,对于原始特征x,我们可以构造特征映射: ϕ(x) = [x, x², x³]ᵀ
7.2 核技巧
在实际计算中,我们不需要显式计算ϕ(x),而是通过核函数K(x,z)=ϕ(x)ᵀϕ(z)来高效计算内积。这使得SVM能够处理极高维的特征空间,而无需承担巨大的计算成本。
8. 支持向量
在最优解中,只有少数α⁽ⁱ⁾不为零,对应的样本称为支持向量。这些支持向量决定了分类边界的位置,使得SVM具有很好的鲁棒性和泛化能力。
9. 总结
支持向量机通过最大化几何边界来提高分类器的泛化能力。通过拉格朗日对偶形式和核技巧,SVM能够高效地处理高维特征空间。理解这些核心概念对于掌握SVM及其应用至关重要。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考