拉格朗日对偶性(Lagrange duality)

最新推荐文章于 2025-01-12 17:05:13 发布

置顶 isstack

最新推荐文章于 2025-01-12 17:05:13 发布

阅读量552

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：拉格朗日对偶性

本文链接：https://blog.youkuaiyun.com/qq_35144795/article/details/98495869

机器学习专栏收录该内容

5 篇文章

订阅专栏

本文深入解析拉格朗日对偶性在优化理论中的应用，从原始问题到对偶问题的转化，探讨弱对偶与强对偶的概念，以及KKT条件在求解带约束优化问题中的关键作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

拉格朗日对偶性(Lagrange duality)

拉格朗日对偶性(Lagrange duality)

1. 从原始问题到对偶问题

对偶性是优化理论中一个重要的部分，带约束的优化问题是机器学习中经常遇到的问题，这类问题都可以用如下形式表达
$\begin{aligned} min \;\; &f(x) \\ s.t.\;\; & g_i(x) \le 0 ,\;\; i=1,\cdots, m\\ & h_i(x) = 0,\;\; i=1,\cdots,n\\ \end{aligned}$
约束条件减少需要求解的空间，但在机器学习中，约束条件往往比较复杂并且较多。因此先计算约束条件再在约束空间中计算最优值非常不方便。于是用广义拉格朗日函数将带约束优化问题转化为无约束优化问题
$L(x,\lambda,\eta) = f(x)+\sum_i^m \lambda_i g_i(x) + \sum_i^n \eta_i h_i(x)$
这时，若按照拉格朗日乘数法直接对 $x、\lambda、\eta$ 求偏导的话，结果对简化复杂的约束条件没有益处。我们希望获取一种能够优化原问题，又能简化计算的方法。于是进一步挖掘 $\lambda、\eta$ 能够带来的东西，当我们对广义拉格朗日函数作关于 $\lambda、\eta$ 的最大化时
$\theta_P(x) = \underset {\lambda \ge 0,\eta} {max}\;L(x,\lambda,\eta)$
其中，要求 $\lambda \ge 0$ ，很容易发现，在这个最大化问题中，若 $x$ 不满足原问题中的约束，那么这个最大化的结果一定是正无穷。例如， $g_i(x)>0$ ，在关于 $\lambda、\eta$ 最大化时，其系数便会趋于无穷大使得整个式子趋于无穷大。而当 $x$ 满足约束时，最大化的结果一定是 $f (x)$ 。依据这个特性，我们可以将原广义拉格朗日函数的极小化问题拆解为两步
$\underset x {min} \;L(x,\lambda,\eta) = \underset x {min} \;\theta_P(x) = \underset x {min} \;\underset {\lambda \ge 0,\eta} {max}\;L(x,\lambda,\eta)$

拆解后的问题$ \underset x {min} ;\underset {\lambda \ge 0,\eta} {max};L(x,\lambda,\eta)$ 称为广义拉格朗日函数的极小极大问题，它与原问题是完全等价的。在对偶性中，这个问题被称为原始问题（Primal problem）。

通过原始问题的极小极大问题，可以引出它的对偶问题（Dual problem），其对偶问题就是极小极大问题交换一个位置而已。首先定义
$\theta_D(\lambda,\eta) = \underset {x} {min} L(x,\lambda,\eta)$
那么其对偶问题就是
$\underset {\lambda \ge 0,\eta} {max} \; \theta_D(\lambda,\eta)= \underset {\lambda \ge 0,\eta} {max} \;\underset {x} {min} L(x,\lambda,\eta)$
这个问题是广义拉格朗日函数的极大极小问题，将其展开为约束最优化问题得到
$\underset {\lambda ,\eta} {max} \; \theta_D(\lambda,\eta)= \underset {\lambda ,\eta} {max} \;\underset {x} {min} L(x,\lambda,\eta)\\ s.t. \lambda_i \ge 0,\;\; i= 1,2,\cdots,k$
可以看出两个函数的变量并不相同，对于原始问题，它的变量是 $x$ ，而对于对偶问题，它的变量是 $\lambda,\;\eta$ 。并且，这两个问题并不等价，有时候甚至差的有点多。可以理解为其他国家最厉害的乒乓球队员，也没有中国最菜的乒乓球队员厉害，当然这比喻并不准确。

2. 弱对偶与强对偶

对偶函数可以理解为给原始函数找了一个下界，在原始函数计算困难的时候，可以通过解对偶函数来得到一个近似的值。并且在函数满足一定条件的时候，对偶函数的解与原始函数的解是等价的。具体来说，对偶函数 $\theta_D(\lambda,\eta)=\underset {x} {min} L(x,\lambda,\eta)$ 确定了原始问题的一个下界，即
$\theta_D(\lambda,\eta) =\underset {x} {min} L(x,\lambda,\eta)\le L(x,\lambda,\eta)\le \underset {\lambda \ge 0,\eta} {max}\;L(x,\lambda,\eta)=\theta_P(x) \tag{2-a}$

即
$\theta_D(\lambda,\eta) \le \theta_P(x)$
其中， $\theta_d(\lambda,\eta)$ 看作其他国家乒乓球运动员， $\theta_P(x)$ 看作中国乒乓球运动员，那么其他国家最厉害的也不一定比得上中国最差的。即
$d^* =\underset {\lambda ,\eta} {max} \; \theta_D(\lambda,\eta)\le \underset x {min} \;\theta_P(x)=p^* \tag{2-b}$
这个性质便是弱对偶性（ weak duality ）。弱对偶性对任何优化问题都成立，这似乎是显然的，因为这个下界并不严格，有时候甚至取到非常小，对近似原问题的解没多大帮助。既有弱对偶性，那么便有强对偶性，强对偶性是指
$d^* = p^*$
显然这是一个令人惊喜的性质，这意味着可以通过求解较简单的对偶问题（因为对偶问题总是一个凸优化问题）来得到原问题的解。不过强对偶性在优化问题中是一个非常高深的问题，对我来说更是如此。因此我只能介绍关于强对偶的两个条件：严格条件和KKT条件。

3. KKT条件

严格条件是指原始问题是凸函数，约束条件是仿射函数，若此时不等式约束满足严格条件，即不等号是严格不等号，不能取等号，则强对偶性成立。这个条件在SVM中即变成了对任意一个点，都存在超平面能对其正确划分，也就是数据集是线性可分的。严格条件是强对偶性的充分条件，但并不是必要条件。有些不满足严格条件的可能也有强对偶性。

KKT条件是在满足严格条件的情况下，推导出的变量取值的关系，假设原始问题和对偶问题的极值点分别是 $x^*$ 和 $\lambda^*,\eta^*$ ，对应的极值分别是 $p^*$ 和 $d^*$ 。由于满足强对偶性，有 $p^*=d^*$ 。将极值点带入得到
$d^* = \theta_D(\lambda^*,\eta^*) =\underset x {min} L(x,\lambda^*,\eta^*) \tag{3-a}$
这说明 $x^*$ 是 $L(x,\lambda^*,\eta^*)$ 的一个极值点，那么 $L(x,\lambda^*,\eta^*)$ 在 $x^*$ 处的梯度为0，即
$\triangledown f(x^*)+\sum_i^m\lambda_i g_i(x^*) + \sum_i^n \eta_i h_i(x^*) = 0 \tag{3-b}$
由式 $(2 - a)$ ，
$\begin{aligned} d^* =& \underset x {min} L(x,\lambda^*,\eta^*) \\ \le &L(x^*,\lambda^*,\eta^*)\\ =& f(x^*) + \sum_i^m \lambda_i g_i(x^*) + \sum_i^n \eta_i h_i(x^*)\\ \le & p^* = f(x^*) \end{aligned} \tag{3-c}$
由于 $p^*=d^*$ ，因此上式不等号应取到等号，再与式 $(3 - b)$ 得
$\sum_i^m \lambda_i g_i(x^*) + \sum_i^n \eta_i h_i(x^*) = 0 \tag{3-d}$
由于注意 $x^*$ 作为该问题的解，是一定满足 $h(x^*) = 0$ 的，因此
$\lambda_i g_i(x) = 0,\;\;\;i=1,2,\cdots,m$
这个条件叫做互补松弛性（complementary slackness）。

其中， $\lambda \ge 0$ 称为对偶可行性。并且它似乎可以从原始问题到对偶问题的极小极大问题中总结出。不过这里可以有另一种解释，简化一下，考虑只有不等式约束的问题
$\begin{aligned} min \;\; &f(x) \\ s.t.\;\; & g(x) \le 0 \\ \end{aligned}$
其中 $\le 0$ 称为原始可行性，由它确定的区间称为可行域。假设 $x^*$ 为该问题的解，那么其位置有两种情况

(1) $g(x^*)<0$ 时，解在可行域中取得。这时解称为内部解，约束条件无效，原问题变为无约束问题。
(2) $g(x^*)=0$ 时，解在边界上取得，这时解称为边界解，约束条件有效。

内部解直接由梯度为0即可解得，这里主要讨论边界解。

对于 $g (x) = 0$ 的约束问题，建立拉格朗日函数
$L(x,\lambda) = f(x) + \lambda g(x)$
因为驻点 $x^*$ 在其上取得，那么该函数在 $x^*$ 处的梯度为0，即
$\triangledown f(x^*) + \lambda \triangledown g(x^*) = 0$
这里两个梯度的方向应该是可以确定的， $f (x)$ 的极小值在边界取到，那么可行域内部的 $f (x)$ 应该都是大于这个极小值的，因此 $\triangledown f$ 的方向是可行域内部。而 $\triangledown g$ 的方向是可行域外部，因为约束条件是 $g(x)\le 0$ ，也就是可行域外部都是 $g (x) > 0$ ，所以梯度方向指向函数增加的方向。这说明两个函数的梯度方向相反，那上面这个等式要成立， $\lambda$ 只能是大于等于0。这就是对偶可行性。

再将其他的条件组合起来，便得到了KKT条件：
$\begin{aligned} \triangledown _x L(x^*,\lambda^*,\eta^*) =0 \\ g_i(x^*) \le 0\\ \lambda_i \ge 0\\ \lambda_i g_i(x^*) =0 \end{aligned}$