斯坦福CS229机器学习笔记：支持向量机(SVM)原理详解

霍忻念

于 2025-06-11 09:15:42 发布

阅读量266

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_00436/article/details/148578041

斯坦福CS229机器学习笔记：支持向量机(SVM)原理详解

Stanford-CS-229 A Chinese Translation of Stanford CS229 notes 斯坦福机器学习CS229课程讲义的中文翻译项目地址: https://gitcode.com/gh_mirrors/st/Stanford-CS-229

1. 引言

支持向量机(Support Vector Machine, SVM)是机器学习中最强大和最广泛使用的算法之一。本文将深入讲解SVM的核心概念，包括边界、函数边界与几何边界、最优边界分类器、拉格朗日对偶性以及核方法等关键内容。

2. 边界概念的直观理解

2.1 分类边界的直观认识

在逻辑回归中，我们通过sigmoid函数将线性预测转换为概率。当θᵀx≥0时，我们预测y=1。θᵀx的值越大，我们对预测的信心就越强。类似地，对于y=0的情况，θᵀx越小，预测信心越强。

2.2 几何边界的可视化

考虑一个二分类问题，我们可以画出分类超平面(decision boundary)。数据点距离分类边界越远，我们对预测的信心就越高。例如：

远离边界的点A：预测信心很高
靠近边界的点C：预测信心较低
中间位置的点B：预测信心适中

3. SVM的数学表示

3.1 新的记号系统

为了简化SVM的推导，我们采用新的记号：

分类标签y ∈ {-1,1}（而非{0,1}）
分类器表示为h_{w,b}(x)=g(wᵀx+b)
- 当z≥0时，g(z)=1
- 当z<0时，g(z)=-1

这种表示方法将截距项b与其他参数分开，更便于后续推导。

4. 函数边界与几何边界

4.1 函数边界(Functional Margin)

对于训练样本(x⁽ⁱ⁾,y⁽ⁱ⁾)，函数边界定义为： γ̂⁽ⁱ⁾ = y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b)

函数边界越大，表示预测越可信且正确。但函数边界有一个问题：通过缩放w和b可以任意增大边界值，而不改变分类器本身。

4.2 几何边界(Geometric Margin)

几何边界γ⁽ⁱ⁾表示点到分类边界的实际距离： γ⁽ⁱ⁾ = y⁽ⁱ⁾((w/||w||)ᵀx⁽ⁱ⁾ + b/||w||)

几何边界不受参数缩放的影响，具有更好的解释性。

5. 最优边界分类器

5.1 优化问题表述

我们希望找到能最大化几何边界的分类器，可以表述为： max γ s.t. y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b) ≥ γ, ∀i ||w|| = 1

5.2 问题转化

通过引入缩放约束γ̂=1，将问题转化为： min (1/2)||w||² s.t. y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b) ≥ 1, ∀i

这是一个凸二次规划问题，可以用标准QP软件求解。

6. 拉格朗日对偶性

6.1 拉格朗日函数

对于约束优化问题，我们可以构造拉格朗日函数： L(w,b,α) = (1/2)||w||² - Σα⁽ⁱ⁾[y⁽ⁱ⁾(wᵀx⁽ⁱ⁾+b)-1]

6.2 KKT条件

最优解满足KKT条件：

梯度为零
原始约束满足
对偶约束满足
互补松弛条件：α⁽ⁱ⁾g⁽ⁱ⁾(w)=0

6.3 对偶问题

通过求解对偶问题： max W(α) = Σα⁽ⁱ⁾ - (1/2)Σy⁽ⁱ⁾y⁽ʲ⁾α⁽ⁱ⁾α⁽ʲ⁾<x⁽ⁱ⁾,x⁽ʲ⁾> s.t. α⁽ⁱ⁾ ≥ 0, Σα⁽ⁱ⁾y⁽ⁱ⁾=0

我们可以更高效地找到最优解。

7. 核方法(Kernels)

7.1 特征映射

核方法的关键思想是将输入特征映射到高维空间，使数据在新空间中线性可分。例如，对于原始特征x，我们可以构造特征映射： ϕ(x) = [x, x², x³]ᵀ

7.2 核技巧

在实际计算中，我们不需要显式计算ϕ(x)，而是通过核函数K(x,z)=ϕ(x)ᵀϕ(z)来高效计算内积。这使得SVM能够处理极高维的特征空间，而无需承担巨大的计算成本。

8. 支持向量

在最优解中，只有少数α⁽ⁱ⁾不为零，对应的样本称为支持向量。这些支持向量决定了分类边界的位置，使得SVM具有很好的鲁棒性和泛化能力。

9. 总结

支持向量机通过最大化几何边界来提高分类器的泛化能力。通过拉格朗日对偶形式和核技巧，SVM能够高效地处理高维特征空间。理解这些核心概念对于掌握SVM及其应用至关重要。

Stanford-CS-229 A Chinese Translation of Stanford CS229 notes 斯坦福机器学习CS229课程讲义的中文翻译项目地址: https://gitcode.com/gh_mirrors/st/Stanford-CS-229

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

霍忻念 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。