数值优化（Numerical Optimization）学习系列-无梯度优化（Derivative-Free Optimization）

最新推荐文章于 2025-11-16 08:33:41 发布

原创最新推荐文章于 2025-11-16 08:33:41 发布 · 1.2w 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#数值优化 #无梯度优化 #Derivative

数值优化专栏收录该内容

17 篇文章

订阅专栏

本文介绍了无梯度优化（DFO）方法，特别关注在目标函数梯度不易获取或存在噪声的情况下进行优化。讨论了有限差分和误差处理，强调了基于模型的方法，如二次模型近似，并探讨了坐标和模式搜索策略。文章还涵盖了其他DFO算法，如共轭方向法，Nelder-Mead方法和Implicit Filtering方法，为解决复杂优化问题提供了思路。

概述

在实际应用中，有些目标函数的梯度不容易计算，即使使用有限差分等近似算法，也会因为噪声的存在导致结果不精确。无梯度优化算法（DFO-Derivative-Free Optimization）可以在不计算梯度的情况下进行问题的最优化，主要有两类思路，一是根据目标函数的样本进行拟合，对拟合函数进行最优化；二是用一些启发式算法。
1. 有限差分和误差
2. 基于模型近似的方法
3. 坐标和模式搜索方法
4. 其他DFO方法
5. 总结

有限差分和误差

有限差分方法在某些情况下可能会有一定的误差，例如如果函数值需要通过随机试验进行模拟，此时会引入人为误差或者仪器误差。
因此对问题进行建模时，将误差引入目标函数中，然后利用有限差分和梯度相关算法进行优化。

f (x) = h (x) + ϕ (x)

$f(x)=h(x)+\phi (x)$ 其中函数h表示某平滑函数，

ϕ $\phi$ 表示误差分布函数，该函数可以和参数x有关也可以无关。

对误差进行建模后，然后利用中心有限差分方法，进行梯度的计算

\partial f \partial x i \approx f ( x + ϵ e i ) - f ( x - ϵ e i ) 2 ϵ

$\frac{\partial f}{\partial x_i} \approx \frac{f(x+\epsilon e_i)-f(x-\epsilon e_i)}{2\epsilon}$

噪声水平（Noise Level）定义为：
在x附近噪声最大值。 $\eta(x;\phi)=sup_{||z-x||\le \epsilon}|\phi(z)|$

此时使用有限差分方法，近似误差来源于固有误差和噪声误差。

基于模型的方法

主要思路是，在第k步迭代时，基于该点进行模型近似，通过采样推导出模型中的参数，基于该模型进行最优化计算。

二次模型近似

在第k步迭代时，构建一个二次模型进行近似

m k (x k + p) = c + g T p + 1 2 p T G p

$m_k(x_k+p)=c+g^Tp+\frac12p^TGp$ ，其中g和G分别表示函数f的一阶和二阶梯度。
由于该模型参数c、g和G都是未知的，因此需要1+n+(n+1)n/2=(n+1)(n+2)/2个未知数需要计算。
所以基于点Xk需要采样这么多个点进行未知数计算。
样本

Y=y1,y2...yq $Y={y^1,y^2...y^q}$ ，假设该集合中的点值都比x_k大。根据拟合等式

mk(yl)=f(yl) $m_k(y^l)=f(y^l)$
此时可以唯一确定模型m，然后利用信赖域或者梯度方法进行最优化。

在实际应用中，我们仅需要更新模型M即可，不用每次都重新计算。可以选择合适方便计算的基函数。

算法过程如下
这里写图片描述

算法过程如下
1. 构建插值集合 $Y={y^1,y^2...y^q}$ 需要保证线性方式的解存在。
2. 求解插值方程
3. 根据二次模型进行最优解计算
4. 根据最优解的效果，决定是否采用该解。
5. 根据一个几何过程更新几何Y。

二次模型的缺点：样本点选择是O(n^2)的，如果维度越高计算复杂度越大。因此可以考虑线性模型，此时只有O(n+1)个样本需要求解，复杂度会降低。

坐标和模式搜索方法

不同于梯度相关的算法，基于模式搜索方法的搜索方向都是事先确定好的，该方法需要从方向集合中选择一个下降方向作为搜索方向并且更新该方向集合，之后利用线搜索决定步长，逐步迭代得到最优解。
坐标下降是模式搜索方法中的一个特例。

坐标搜索方法（Coordinate SearchMethod）

该方法也称之为坐标下降法或者变量交替方法，主要思路是依次沿着坐标轴方向进行线搜索。
详细过程如下
1. 选择某个迭代点x=(x1,x2…xn)，固定x2…xn，优化x1使得目标函数最小
2. i=2..n 优化x_i使得目标函数最小
3. 重复以上步骤
对于二维情况下，搜索过程如下
这里写图片描述

从上图中可以看出，对于条件数比较大的问题，收敛速度非常低。
实际中，如果沿着线性独立的搜索方向搜索，可能不能保证收敛。但是优点是不需要计算梯度，并且对于变量松耦合的情况下，收敛速度可以接受。
另外为了进行优化，搜索方向可以选择为{ $e_1,e_2...e_n,e_{n-1}...e_1$ }

模式搜索方法

每次搜索方向都是从一个“结构集”中选取，找到某个下降点，进行线搜索，否则修改步长，重复该过程。
该方法会受到噪声点、函数值不精确、不平滑的影响。算法过程如下这里写图片描述
算法描述如下
定义
* $\mathcal D_k$ 表示第k迭代的方向集合
* $\gamma_k$ 表示第k步线性搜索参数，即步长，如果找到下降方向，则 $x_k+\gamma_kp_k$ 为最优点
* $\rho(t)$ 为递增函数，并且当t接近0时，该函数值为0
算法过程
1. 初始化搜索方向集合 $\mathcal D_0$
2. 循环迭代一下过程，直到搜索步长满足给定阈值。
3. 如果找到满足一定下降条件的搜索方向，则修改最优值点，并且增大步长。
4. 否则减少步长
关键点

初始化搜索方向集合 $\mathcal D_0$ 如何选取，需要保证包含最优解的方向。
有理论保证如果搜索方向满足一下条件，则一定能保证收敛。 $κ (D k) = min v \in R n max p \in D k v T p | | v | | | | p | | \geq δ$ $\kappa(\mathcal D_k)=\min_{v \in R^n}\max_{p \in \mathcal D_k}\frac{v^Tp}{||v||||p||} \ge \delta$ $β m i n \leq | | p | | \leq β m a x p \in D k$ $\beta_{min}\le||p||\le \beta_{max} \; p \in \mathcal D_k$
条件1说明需要保证最少有一个搜索方向和最优方向的夹角小于90，即cos( $\theta$ ) > $\delta$ ，不能再相反的方向，否则不容易收敛。
条件2说明搜索方向的模不能相差太大，因此搜索步长统一进行缩放。
满足条件的搜索方向有 { $e_1,e_2...e_n,-e_1...-e_n$ },供2n个搜索方向或者{ $p_i=\frac{1}{2n}e-e_i,p_{n+1}=\frac{1}{2n}e$ }，供n+1个点
递增函数可以选择为 $\rho(t)=Mt^{3/2}$

其他DFO算法

共轭方向算法

类似于共轭梯度方法，该方法的目标是最优化

f (x) = 1 2 x T A x - b T x

$f(x)=\frac12x^TAx-b^Tx$ ，不同点在于共轭方向的计算仅仅依靠函数值得到，不依赖梯度的计算。

Parallel subspace property

通过该方法可以找到一系列共轭方向，并且沿着该方向可以得到最优解，以二维情况为例
这里写图片描述
如上图如果直线l1和l2平行，并且x1*和x2*是目标函数沿着该直线的最优解，则x1*-x2*共轭于直线的法向量。
因此只要沿着某两个平行子空间寻找最优解，则最优解的差就共轭于该平面的法向量。
假设{ $p_1,p_2...p_l$ }是线性独立的向量，定义两个平行平面