机器学习——支持向量机（SVM）_svm基本型b-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_47779143/article/details/121035465

本文详细介绍了支持向量机（SVM）的基本概念，包括分离超平面、间隔边界和支持向量。通过拉格朗日乘子法推导了SVM的原始问题和对偶问题，分析了KKT条件，并讨论了软间隔SVM和核化SVM。此外，还介绍了SVM在支持向量回归（SVR）中的应用。SVM是一种有效的监督学习模型，适用于分类和回归任务，通过选择合适的核函数能够处理非线性数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. SVM基本型

请添加图片描述

分离超平面： $\omega^Tx+b=0$
间隔边界： $\omega^Tx+b=±1$
支持向量： $y_i(\omega^Tx_i+b)=1$

原始问题

$\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2$ $\quad 1-y_i(\omega^Tx_i+b)≤0, \quad i=1,2,...,n$

变量： $\omega=(\omega_1,\omega_2,...,\omega_d)^T,b$
约束： $n$ 个不等式约束

模型推导：
样本点 $x$ 到超平面 $(\omega,b)$ 的距离 $d=\frac{|\omega^Tx+b|}{||\omega||}$ ，我们可以对 $(\omega,b)$ 进行适当缩放，最终使得在支持向量 $x_0$ 上有 $|\omega^Tx_0+b|=±1$ ，此时支持向量到超平面的距离为 $\frac{1}{||\omega||}$ 。
间隔定义为两个异类支持向量到超平面的距离之和，即 $\frac{2}{||\omega||}$ ，优化目标转化为最大化 $\frac{2}{||\omega||}$ ，也就是最小化 $||\omega||$ 或 $||\omega||^2$ ，此处带有 $\frac{1}{2}$ 的原因是便于后续求导。
约束条件的意义在于所有样本点都需要满足该硬性条件，我愿称之为“硬间隔”。

对偶问题

$\underset{\lambda}{min} \quad \frac{1}{2}\Sigma_{i=1}^n\Sigma_{j=1}^ny_iy_jx_i^Tx_j\lambda_i\lambda_j-\Sigma_{i=1}^n\lambda_i$ $\quad \Sigma_{i=1}^n\lambda_iy_i=0,$ $\lambda_i≥0, \quad i=1,2,...,n$

模型推导：
采用拉格朗日乘子法，定义拉格朗日函数： $L(\omega,b,\alpha)=\frac{1}{2}||\omega||^2+\Sigma_{i=1}^n\lambda_i(1-y_i(\omega^Tx_i+b)), \quad \lambda_i≥0$ 令 $L(\omega,b,\alpha)$ 对 $\omega$ 和 $b$ 的偏导为0可得： $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ $0=\Sigma_{i=1}^n\lambda_iy_i$ 将 $\omega$ 代入拉格朗日函数中即得对偶模型。

KKT条件

原始问题为极大极小问题（推导见下），即： $\underset{\omega,b}{min}\underset{\lambda≥0}{max}L(\omega,b,\alpha)$ ；
而对偶问题为极小极大问题（由定义），即： $\underset{\lambda≥0}{max} \underset{\omega,b}{min}L(\omega,b,\alpha)$ 。

原问题为凸优化问题，当 $f (x), g (x)$ 为凸函数，且可行域中至少有一点使不等式约束严格成立时，强对偶性成立，对偶问题等价于原问题。即需要满足 $K K T$ 条件： $\begin{cases} \omega=\Sigma_{i=1}^n\lambda_iy_ix_i, \quad 0=\Sigma_{i=1}^n\lambda_iy_i\\ \lambda_i≥0\\ \lambda_i[1-y_i(\omega^Tx_i+b)]=0\\ 1-y_i(\omega^Tx_i+b)≤0\\ \end{cases}$

KKT条件推导如下：

当约束不起作用时，极小值在可行域内某处取得，而不在边界处取得，故此时 $g(x^*)<0$ ， $g (x)$ 不起作用，故 $\lambda=0$ ，由极小值点梯度为零知 $\nabla_xf(x^*)=0$ 。
当约束起作用时，极小值在可行域边界处取得，故此时 $g(x^*)=0$ ，易知 $\lambda>0$ ，故由极小值点梯度为零知 $-\nabla_xf(x^*)=\lambda\nabla_xf(x^*)$ 。

于是我们得到KKT条件，即 $x^*$ 是局部最小的等价条件为，存在唯一的 $\lambda^*$ ，使得： $\begin{cases} \nabla_xL(x^*,\lambda^*)=0\\ \lambda^*≥0\\ \lambda^*g(x^*)=0\\ g(x*)≤0 \end{cases}$

支持向量的探讨

假设已知支持向量 $x_s,y_s)$ ，易知 $y_s(\omega^Tx_s+b)-1=0$ ，又已知 $\omega=\Sigma_{i=1}^n\lambda_iy_ix_i$ ，故 $b=y_s-\omega^Tx_s=y_s-\Sigma_{i=1}^n\lambda_iy_ix_i^Tx_s$