简化版_线性可分支持向量机的推导

线性可分支持向量机详解

最新推荐文章于 2024-10-17 18:11:40 发布

原创最新推荐文章于 2024-10-17 18:11:40 发布 · 531 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #支持向量机

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了线性可分支持向量机的学习原理，详细解析了其数学推导过程，包括最优化问题的构造及拉格朗日对偶性的应用。文章阐述了如何通过最大化几何间隔来寻找最优分类超平面，并介绍了KKT条件在确定支持向量中的作用。

线性可分支持向量机的推导

线性可分支持向量机
学习的对偶算法

线性可分支持向量机

支持向量机是一种二分类模型，它的基本想法就是：基于训练集和样本空间找到一个最好的划分超平面。在样本空间中，划分超平面可用 ${w^T}x + b = 0$ 表示，记为(w,b)。样本点 ${x_i},{y_i})$ 到划分超平面的函数间隔： $\hat \gamma = {y_i}(w*{x_i} + b)$ ，几何间隔为： $\gamma = \frac{{\hat \gamma }}{{\left\| w \right\|}}$ 。
支持向量机的基本思想是：求解能够正确划分训练数据集并且几何间隔最大的分离超平面，表达为数学公式即为：
$\mathop {\max }\limits_{w,b} \;\;\;\frac{{\hat \gamma }}{{\left\| w \right\|}}$
s.t. ${y_i}(w*{x_i} + b) \ge \hat \gamma ,\;\;\;\;\;\;\;i = 1,...,N$

由于 ${\hat \gamma }$ 的取值并不影响最优化问题的解，且最大化 $\frac{1}{{\left\| w \right\|}}$ 等价于最小化 ${\frac{1}{2}\left\| w \right\|}$ ，便可得线性可分的支持向量机的最优化问题：
$\mathop {\min }\limits_{w,b} \;\frac{1}{2}{\left\| w \right\|^2}$
s.t.
${y_i}(w*{x_i} + b) - 1 \ge 0,\;\;\;\;i = 1,2,...,N$
这是一个凸二次优化问题，可以直接求解。但是为了方便，应用拉格朗日对偶性，求解它的对偶问题。

学习的对偶算法

首先建立拉格朗日函数，为每个不等式约束，引进拉格朗日乘子， ${\alpha _i} \ge 0,\;\;\;\;i = 1,...,N$ ，定义拉格朗日函数：
$L(w,b,\alpha ) = \frac{1}{2}{\left\| w \right\|^2} - \frac{1}{2}{\alpha _i}{y_i}(w*{x_i} + b) + \sum\limits_{i = 1}^N {{\alpha _i}} }$ 根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题，即： $\mathop {\max }\limits_\alpha \;\mathop {\min }\limits_{w,b} L(w,b,\alpha )$
首先，我们来求最小，令 $L(w,b,\alpha )$ 分别对w和b求导为零，可得：
在这里插入图片描述
将其代入拉格朗日函数，可得：

解出 alpha 之后,那么w,b也相应得到了，也就得到了分离超平面的方程：
$\sum\limits_{i = 1}^m {\alpha _i^ * {y_i}(x{x_i}) + {b^ * }}$
原始问题是凸二次规划问题，解满足下面的KKT条件：
在这里插入图片描述