李航《统计学习方法》中附录C中给出了拉格朗日对偶性的推导,在这里再重新捋一下其概念。
应用拉格朗日对偶性的目的:将原始问题转换为对偶问题,通过求解对偶问题获得原始问题的解。
在这里,我们首先面临的一个问题:1.什么是对偶问题?2. 怎么将原始问题转换为对偶问题?
书中并不是上来就开始讲解怎么去转换的,而是首先将原始问题转换为拉格朗日极大值极小值问题。
即,假设是定义在
上的连续可微函数,考虑约束最优化问题:
(1)
限制条件: (2)
(3)
// 关于限制条件的理解:这两类条件包括了所有可能,即不等式限制条件和等式限制条件,所有的限制条件都可以简化为这两种//
在这里,引入广义的拉尔朗日函数,那么上述三式可以写成:
(4)
// 注意各个系数之间的对应关系//
这里,,
是拉格朗日乘子,
。考虑
的函数:
(5)
这里,下标 P 表示原始问题。
//在这里,我们引入了一个疑问,将原始问题(带有限制(边界)条件的函数求解问题)转换为拉格朗日函数,为什么是求解拉格朗日函数最值是最大值而不是最小值?这就是下边的推导要解释的内容//
假设给定某个 。 如果
违反原始问题的约束条件,即存在某个
使得
或者存在某个
使得
. 那么就有:
(6)
//在这里,假设,我们让其对应的
,而其它的
,那么
。或者
,不论其大于0或者小于0,我们总能找到一个
,而其它的
,且令
都等于0,那么
。我们找到了特例,证明了式(6)。其实,说了这么多,这里就是在证明一个问题:对于原始问题,如果其中的任意一个限制条件
不满足设定,那么由原始问题建立的拉格朗日函数
的最大值都趋于无穷大//
由上文所述,如果不满足条件,拉格朗日函数的最大值都趋于无穷大,那么如果所有的原始问题中的限制条件都满足了呢?我们分析式(6):
此时拉格朗日函数变换为:
我们要求拉格朗日函数的最大值,而
那么,此时,拉格朗日函数的最大值
。
综上,我们得到了最大值
的表达式:
(7)
我们在对求极小值,那么:
(8)
//这儿很好理解,的定义式(7)给出其要么为正无穷,要么等于
,在
和正无穷之间选出一个极小值,肯定不是正无穷吧?如果你认为
,
的最小值仍是
。//
我们对比公式(1),发现公式(8)正是公式(1)。这么换算了那么久,就是为了完成这个替换,即用公式(8)替换公式(1)(2)(3)。公式(8)被称为广义拉格朗日函数的极小极大值问题(注意次序)。
//这里我们在求解公式(7)时已经用到了公式(2)(3),也就是说满足公式(8)必然满足公式(2)(3)等限制条件。//
在此处,我们定义原始问题的最优解:
(9)
//想想我们的目的,我们想把原始问题转换为对偶问题,但推导了半天却是将其转换成拉格朗日函数,这和对偶问题有什么关联呢?带着这样的疑问,我们进入下一阶段的证明//
定义:
(10)
//是
的函数,而
是
的函数。//
对该式求极大值:
(11)
公式(11)被称为广义拉格朗日函数的极大极小值问题(注意次序)。我们对其书写方式进行变换变为约束最优化的问题:
(12)
限制条件: (13)
//注意公式(11)与公式(12)在书写上的区别。//
公式(12)(13)是不是和公式(1)(2)很像?这就对了,这被称为原始问题(公式(1)(2))的对偶问题(公式(12)(13))。
//不要纠结公式(3)//
定义对偶问题的最优解:
(14)
终于,说到这里,总算知道什么是原始问题,什么是对偶问题了,也就解决了我们最开始的问题1。下边开始解决我们的问题2。
下面讨论原始问题和对偶问题的关系
定理1:若原始问题和对偶问题都有最优值,则
(15)
如果我们能够证明定理1,那么原始问题就可以转换为对偶问题了,我们就解决了之前的问题2了。
证明:
由式(5)(10)(12)可得:
(16)
//第一个不等式很好理解,最小值肯定小于等于函数本身。第二个不等式中,有了限制条件,不要忘了,我们由公式(11)中也有限制条件
//
即
(17)
由于原始问题和对偶问题均有最优值,所以(不要问我为什么):
(18)
即:
(19)
定理1得证。
后边的几个推理就贴在这儿,不再赘述。