拉格朗日乘子法与SVM分类器原理详细推导

最新推荐文章于 2025-04-22 23:13:19 发布

原创

最新推荐文章于 2025-04-22 23:13:19 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

本文详细介绍了拉格朗日乘子法及其在SVM（支持向量机）中的应用。首先，通过实例阐述了拉格朗日乘子法解决带约束的优化问题，包括等式约束和不等式约束的情况。接着，文章讨论了SVM的基本思想，如何通过拉格朗日乘子法构建优化目标，求解线性可分和线性不可分数据集的最优分类超平面。最后，提到了非线性核函数在提升SVM分类性能中的作用，如线性核、多项式核和高斯核。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SVM（Support Vector Machine，支持向量机）是一个十分传统且好用的分类器，在二分类问题上有十分良好的表现。

一、拉格朗日乘子法

拉格朗日乘子法是SVM参数优化的核心，它能够解决多个等式或不等式约束下的最优化问题。

例1，给定 $x_1-x_2=2$ ，如何寻找 $x_1^2+x_2^2$ 的最大值，此时 $x_1,x_2$ 是多少？

拉格朗日乘子法的核心在于设立一个拉格朗日方程，将目标函数与约束函数的信息融合在一起，然后找寻该函数的最值。以上述情况为例，定义目标函数 $f(x_1,x_2)=x_1^2+x_2^2$ ，约束函数 $g(x_1,x_2)=x_1-x_2-2$ 。拉格朗日乘子法顾名思义，就是新设立一个变量乘在约束函数上，然后和目标函数相加。则可定义拉格朗日函数 $L(x1,x2,λ)L(x_1,x_2,\lambda)$ 为：
$L(x1,x2,λ)=f(x1,x2)+λg(x1,x2)=x12+x22+λ(x1−x2−2)L(x_1,x_2,\lambda)=f(x_1,x_2)+\lambda g(x_1,x_2)=x_1^2+x_2^2+\lambda(x_1-x_2-2)$
要求得上式的最值，需要各个变量的偏导数为零，所以必须满足：
$∂L∂x1=∂L∂x2=∂L∂λ=0\frac{\partial L}{\partial x_1}=\frac{\partial L}{\partial x_2}=\frac{\partial L}{\partial \lambda}=0$

将上式转换为等式组，有：
$2x1+λ=02x2−λ=0x1−x2−2=02x_1+\lambda=0\\2x_2-\lambda=0\\x_1-x_2-2=0$

求解可得当 $x1=1,x2=−1,λ=−2x_1=1,x_2=-1,\lambda=-2$ 时， $x_1^2+x_2^2$ 可取到最大值2。

上例是最基本的拉格朗日乘子法的应用场景，下面描述扩展场景。

例2，给定 $x1−x2=2,x1+x2≥1x_1-x_2=2,x_1+x_2\geq1$ ，如何寻找 $x_1^2+x_2^2$ 的最大值？

已知约束中除了一个等式约束，还引入了一个不等式约束。和等式约束不同，不等式约束需要分情况讨论：

1. 全局最值在约束范围内

由例1可知，在该例中如果撇开不等式约束，最值在 $x_1=1,x_2=-1$ 时成立。所以倘若不等式函数 $h(x_1,x_2)>0$ 在最值情况下成立（比如 $x_1+x_2>-1$ ），那么这个约束就等于没有。

2.全局最值在约束范围外

这种情况是例2场景下的情况了，此时不等式约束生效，成为等式约束。即最后的最值点会落在约束条件上（此例为 $x1+x2≥1x_1+x_2\geq 1$ ）。

除了不等式总共有两项约束，因此依然要建立一个方程，将这些信息融合在一起。定义 $f(x_1,x_2)=x_1^2+x_2^2$ ， $g(x_1,x_2)=x_1-x_2-2$ ， $h(x_1,x_2)=x_1+x_2-1$ ，由于约束比例1多了一个，所以拉格朗日乘子也要多一个。所以该例下拉格朗日函数 $L(x1,x2,λ,γ)L(x_1,x_2,\lambda,\gamma)$ 为：
$L(x1,x2,λ,γ)=f(x1,x2)+λg(x1,x2)−γh(x1,x2)=x12+x22+λ(x1−x2−2)+γ(x1+x2−1)L(x_1,x_2,\lambda,\gamma)=f(x_1,x_2)+\lambda g(x_1,x_2) -\gamma h(x_1,x_2)\\=x_1^2+x_2^2+\lambda(x_1-x_2-2)+\gamma(x_1+x_2-1)$