拉格朗日对偶性

最新推荐文章于 2020-04-12 17:12:36 发布

转载最新推荐文章于 2020-04-12 17:12:36 发布 · 495 阅读

在约束最优化问题中，常常利用拉格朗日对偶性将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中，例如，最大熵模型与支持向量机。

1、原始问题

假设 $f (x)$ , $c_{i}(x)$ , $h_{j}(x)$ 是定义在 $R^n$ 上的连续可微函数。考虑约束最优化问题
$\min_{x\in R^n} f(x) \tag{C.1}$
$\ c_{i}(x)\le 0，i = 1,2,\ldots,k \tag{C.2}$
$h_{j}(x)=0，j=1,2,\ldots,l \tag{C.3}$
称此约束最优化问题为原始最优化问题或原始问题。
首先，引入广义拉格朗日函数
$L(x,\alpha,\beta) = f(x)+\sum_{i=1}^{k}\alpha_{i}c_{i}(x) + \sum_{j=1}^l \beta_{j}h_{j}(x) \tag{C.4}$
这里， $x=(x(1),x(2),…,x(n))∈Rnx=(x^{(1)},x^{(2)},\ldots,x^{(n)}) \in R^{n}$ , $αi,βj\alpha_{i},\beta_{j}$ 是拉格朗日乘子， $αi≥0\alpha_{i} \ge 0$ 。考虑 $x$ 的函数：
$\theta_{p}(x) = \max_{\alpha,\beta:\alpha_{i}\ge 0} L(x,\alpha,\beta) \tag{C.5}$
这里，下标 $P$ 表示原始问题。
假设给定某个x,如果x违反原始问题的约束条件，即存在某个i使得 $c_{i}(w) \gt 0$ 或者存在某个j使得 $hj(w)≠0h_{j}(w) \ne 0$ ,那么有.
$\theta_{p}{x}=\max_{\alpha,\beta:\alpha_{i}\ge 0}[f(x)+\sum_{i=1}^{k}\alpha_{i}c_{i}(x) + \sum_{j=1}^l \beta_{j}h_{j}(x)] = +\infty \tag{C.6}$
因为若某个i使约束 $c_{i}(x) \gt 0$ ,则可令 $αi→+∞\alpha_{i} \rightarrow +\infty$ ,若某个 $j$ 使 $hj(x)≠0h_{j}(x) \ne 0$ ,则可令 $βj\beta_{j}$ 使得 $βjhj(x)→+∞\beta_{j}h_{j}(x)\rightarrow +\infty$ ,而将其余各 $αi,βj\alpha_{i},\beta_{j}$ 均取为0。
相反地，如果 $x$ 满足约束条件式(C.2)和(C.3),则由式(C.5)和式(C.4)可知， $θp(x)=f(x)\theta_{p}(x)=f(x)$ 。因此，
$\theta_{p}(x)=\begin{cases} f(x)，&x满足原始条件约束\\ +\infty，&其他 \end{cases} \tag{C.7}$
所以如果考虑极小化问题
$\min_{x}\theta_{p}(x)=\min_{x}\max_{\alpha,\beta:\alpha_{i}\ge 0}L(x,\alpha,\beta) \tag{C.8}$
它是与原始最优化问题(C.1~C.3)等价的，即他们由相同的解。问题 $min⁡xmax⁡α,β:αi≥0L(x,α,β)\min \limits_{x}\max \limits_{\alpha,\beta:\alpha_{i}\ge 0}L(x,\alpha,\beta)$ 称为广义拉格朗日极小极大问题。这样，就把原始问题的最优值
$p^*=\min_{x}\theta_{p}(x) \tag{C.9}$
称为原始问题的值。

2、对偶问题

定义
$\theta_{D}(\alpha,\beta) = \min_{x}L(x,\alpha,\beta) \tag{C.10}$
在考虑极大化 $θD(α,β)=min⁡xL(x,α,β)\theta_{D}(\alpha,\beta) = \min_{x}L(x,\alpha,\beta)$ ，即
$\max_{\alpha,\beta:\alpha_{i}\ge 0}\theta_{D}(\alpha,\beta)=\max_{\alpha,\beta:\alpha_{i}\ge 0}\min_{x}L(x,\alpha,\beta) \tag{C.11}$
问题 $max⁡α,β:αi≥0min⁡xL(x,α,β)\max \limits_{\alpha,\beta:\alpha_{i}\ge 0}\min_{x}L(x,\alpha,\beta)$ 称为广义拉格朗日函数的极大极小问题。
可以将广义拉格朗日函数的极大极小问题表示为约束最优化问题：
$\max_{\alpha,\beta}\theta_{D}(\alpha,\beta)=\max_{\alpha,\beta}\min_{x}L(x,\alpha,\beta) \tag{C.12}$
$\ \alpha_{i}\ge 0，i=1,2,\ldots,k \tag{C.13}$
称为原始问题的对偶问题。定义对偶问题的最优值
$d^*=\max_{\alpha,\beta:\alpha_{i}\ge 0}\theta_{D}(\alpha,\beta) \tag{C.14}$
称为对偶问题的值。

3、原始问题和对偶问题的关系

定理C.1 若原始问题对偶问题都有最优值，则
$d^*=\max_{\alpha,\beta:\alpha_{i}\ge 0}\min_{x}L(x,\alpha,\beta) \le \min_{x}\max_{\alpha,\beta:\alpha_{i}\ge 0}L(x,\alpha,\beta) = p^* \tag{C.15}$
证明由式 $(C . 12)$ 和式 $(C . 5)$ ,对任意的 $α,β\alpha,\beta$ 和 $x$ ,有
$\theta_{D}(\alpha,\beta) = \min_{x}L(x,\alpha,\beta) \le L(x,\alpha,\beta) \le \max_{\alpha,\beta:\alpha_{i}\ge 0}L(x,\alpha,\beta) = \theta_{p}(x) \tag{C.16}$
即
$\theta_{D}(\alpha,\beta) \le \theta_{p}(x) \tag{C.17}$
由于原始问题和对偶问题均有最优值，所以，
$\max_{\alpha,\beta:\alpha_{i}\ge 0}\theta_{D}(\alpha,\beta) \le \min_{x} \theta_{p}(x) \tag{C.18}$
即
$d^*=\max_{\alpha,\beta:\alpha_{i}\ge 0}\min_{x}L(x,\alpha,\beta) \le \min_{x}\max_{\alpha,\beta:\alpha_{i}\ge 0}L(x,\alpha,\beta) = p^* \tag{C.19}$

推论C.1 设 $x^*$ 和 $α∗,β∗\alpha^*,\beta^*$ 分别为原始问题(C.1)-(C.3)和对偶问题(C.12)-(C.13)的可行解，并且 $d^*=p^*$ ,则 $x^*$ 和 $α∗,β∗\alpha^*,\beta^*$ 分别式原始问题和对偶问题的最优解。

定理C.2 考虑原始问题(C.1)-(C.3)和对偶问题(C.12)-(C.13)。假设函数 $f (x)$ 和 $c_{i}(x)$ 是凸函数， $h_{j}(x)$ 是仿射函数；并且假设不等式约束 $c_{i}(x)$ 是严格可行的，即存在x，对所与 $i$ 有 $c_{i}(x) \lt 0$ ,则存在 $x∗,α∗,β∗x^*,\alpha^*,\beta^*$ ,使 $x^*$ 是原始问题的解， $α∗\alpha^*$ , $β∗\beta^*$ 是对偶问题的解，并且$
$p^*=d^*=L(x^*,\alpha^*,\beta^*) \tag{C.20}$

***定理C.3***对原始问题(C.1)-(C.3)和对偶问题(C.12)-(C.13)，假设函数 $f (x)$ 和 $c_{i}(x)$ 是凸函数， $h_{j}(x)$ 是仿射函数，并且假设不等式约束 $c_{i}(x)$ 是严格可行的则 $x^*$ 和 $α∗,β∗\alpha^*,\beta^*$ 分别式原始问题和对偶问题的解的充分必要条件是 $x∗,α∗,β∗x^*,\alpha^*,\beta^*$ 满足下面的Karush-Kuhn-Tucker(KKT)条件：
$\nabla_{x}L(x^*,\alpha^*,\beta^*)=0 \tag{C.21}$
$\alpha^*c_{i}(x^*)=0,\ i=1,2,\ldots,k \tag{C.22}$
$c_{i}(x^*) \le 0, \ i=1,2,\ldots,k \tag{C.23}$
$\alpha^* \ge 0, \ i=1,2,\ldots,k \tag{C.24}$
$h_{j}(x^*) = 0,\ j = 1,2,\ldots,l \tag{C.25}$
特别指出，式(C.24)称为KKT的队友互补条件。由此条件可知：若 $α∗>0\alpha^* \gt 0$ ，则 $c_{i}(x^*) = 0$