智能计算数学基础——下降法求解无约束条件优化问题

原创已于 2022-05-07 19:57:15 修改 · 303 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#智能计算数学基础 #无约束条件优化问题 #下降法 #梯度下降 #Newton法

于 2021-07-10 10:16:16 首次发布

智能计算数学基础专栏收录该内容

6 篇文章

订阅专栏

本文介绍了无约束条件优化问题及下降法，重点讲解了梯度下降法和牛顿法。梯度下降通过沿着负梯度方向寻找函数最小值，而牛顿法则利用二阶泰勒展开寻找更精确的下降方向。两种方法都是解决优化问题的常用策略。

1、无约束条件优化

考虑无约束条件优化问题： $minimizex∈Df(x)\underset{x\in D}{minimize} f(x)$ 目标是找到一个 $x^*$ ，使得 $∀x∈D,f(x∗)≤f(x)\forall x \in D,f(x^*)≤f(x)$ 。这里的 $x^*$ 是 $f (x)$ 的极小值点，也是优化问题的解。

一般优化问题是比较难求解的，常采用下降的方法。
即，从某一个起始点开始，一点一点地下降，去找 $x^*$ ，可以形式化表示为： $f(x_0)≥f(x_1)≥f(x_2)≥...≥f(x_k)≥f(x_{k+1})≥...$ ，在某一步之后，我们就认定 $x_k=x^*$ 。

2、下降法

2.1、下降法的核心问题

下降法的核心问题是：如何来下降。
在这里插入图片描述
从 $x$ 出发，找到一个偏移量 $Δx\Delta x$ ，使得函数值是下降的，即： $f(x)≥f(x+Δx)f(x)≥f(x+\Delta x)$ 。
最简单的方法是：梯度下降。

2.2、梯度下降法（Gradient Descent，GD）

根据一阶Taylor展开，
当 $x$ 为一元变量， $\in R$ 时， $f(x+Δx)≈f(x)+f′(x)Δxf(x+\Delta x)≈f(x)+f'(x)\Delta x$ ，其中， $x$ 为常量， $Δx\Delta x$ 为变量。
其实，更常用的是 $x$ 为多元变量， $x∈Rnx\in R^n$ ，这时，
$f(x+Δx)≈f(x)+atΔx(1)f(x+\Delta x)≈f(x)+a^t\Delta x\tag{1}$ ，其中， $a=∇f(x)a=\nabla f(x)$ ，是一个常向量。
$f$ 在 $x$ 附近就近似地看成了一个线性函数。

下降要满足条件： $f(x)＞f(x+Δx)f(x)＞f(x+\Delta x)$ ，一个办法就是，使 $Δx\Delta x$ 变化让 $f(x+Δx)f(x+\Delta x)$ 尽可能小即可。
梯度下降就是采用的这种方式，形式化表示为：
$min∣∣Δx∣∣≤εf(x+Δx)(2)\underset{||\Delta x|| ≤ \varepsilon}{min}f(x+\Delta x)\tag{2}$
其中， $ε\varepsilon$ 是给定的一个很小的正量， $∣∣Δx∣∣≤ε||\Delta x|| ≤ \varepsilon$ 表示 $x+Δxx+\Delta x$ 是在 $x$ 的附近取值。
当 $x$ 分别为一维、二维、三维时， $x+Δxx+\Delta x$ 的范围如下图所示：
在这里插入图片描述
根据(1)(2)，可推导出
$min∣∣Δx∣∣≤εf(x)+atΔx(3)\underset{||\Delta x|| ≤ \varepsilon}{min}f(x)+a^t\Delta x\tag{3}$
由于 $f (x)$ 是常量，所以有
(3) $⇔min∣∣Δx∣∣≤εatΔx\Leftrightarrow\underset{||\Delta x|| ≤ \varepsilon}{min}a^t\Delta x$ ，有解且有解析解。

解析解：解能以公式写出来。

由Cauchy不等式 $a,b>||^2≤||a||^2||b||^2$ 成立，当且仅当， $a, b$ 在一条直线上，即 $a, b$ 线性相关，继续往下推。
因此，使得 $atΔx=<a,Δx>≥−∣∣a∣∣⋅∣∣Δx∣∣≥−∣∣a∣∣⋅εa^t\Delta x=<a,\Delta x>≥-||a||·||\Delta x||≥-||a||·\varepsilon$ 成立的条件为， $a,Δxa,\Delta x$ 线性相关，又由于 $<a,Δ><a,\Delta>$ 是一个负数，所以 $a,Δxa,\Delta x$ 线性负相关，形式化表示为： $Δx=−λa\Delta x = -\lambda a$
其中， $λ\lambda$ 是正数，为学习率， $a$ 为梯度。
总结： 梯度下降是怎么选 $Δx\Delta x$ 的呢？即沿着负梯度方向走一点。

2.3、牛顿法（Newton法）

Newton法认为1阶Taylor展开并不是那么精确，采用2阶Taylor展开。
$f(x+Δx)≈f(x)+atΔx+12(Δx)tpΔx(4)f(x+\Delta x)≈f(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x\tag{4}$
其中， $a$ 为梯度， $p$ 是一个矩阵。
$min∣∣Δx∣∣≤εf(x+Δx)(5)\underset{||\Delta x|| ≤ \varepsilon}{min}f(x+\Delta x)\tag{5}$
$min∣∣Δx∣∣≤εf(x)+atΔx+12(Δx)tpΔx(6)\underset{||\Delta x|| ≤ \varepsilon}{min}f(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x\tag{6}$
很显然， $f(x)+atΔx+12(Δx)tpΔxf(x)+a^t\Delta x+\frac{1}{2}(\Delta x)^tp\Delta x$ 是一个关于 $Δx\Delta x$ 的二次函数，Newton法是通过求这个二次函数的最小值，找到 $Δx\Delta x$ 。