METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS 翻译（一）

原创已于 2022-04-29 04:52:00 修改 · 944 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#非线性最小二乘问题 #优化理论

于 2022-04-29 04:43:02 首次发布

SLAM通用基础专栏收录该内容

8 篇文章

订阅专栏

本文介绍了最小二乘问题的基本概念，包括定义1.1中的最小二乘问题、全局最小值和局部最小值的定义，以及如何通过梯度和海塞矩阵判断局部最小值。着重讲解了驻点和局部最小值的必要与充分条件。后续章节将探讨优化技术在非线性最小二乘问题中的应用。

METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS（一）

分章节更新，剩下两部分一周内上传

1. 介绍和定义

在本手册中，我们考虑了以下问题

定义1.1. 最小二乘问题

寻找 $x^*$ ，即以下式子的局部最小值
$F(\pmb{x})=\frac{1}{2}\sum_{i=1}^{m}{(f_i(\pmb{x}))^2} \tag{1.1}$
其中， $fi:Rn→R,i=1,...f_i:\mathbb{R}^n \to \mathbb{R},i=1,...$ , $m$ 由函数给定，并且 $m≥nm\geq n$ 。

$F (x)$ 的定义中的因子 $12\frac{1}{2}$ 对 $x^∗$ 没有影响。它是为了方便而引入的。

例子1.1.

最小二乘问题的一个重要来源是数据拟合。例如，考虑如下图所示的数据点 $t_1,y_1),...,(t_m,y_m)$ :

请添加图片描述

此外，我们还得到了一个拟合模型
$M(\pmb{x},t)=x_3 e^{x_1 t}+x_4 e^{x_2 t}$

该模型取决于参数 $x=[x_1,x_2,x_3,x_4]^T$ 。我们假设存在一个 $x∗\pmb{x}^*$ 满足
$y_i = M(\pmb{x}^*,t_i)+\epsilon_i$
其中 ${ϵi}\{\epsilon_i\}$ 是数据序列的（测量）误差，我们假定其行为类似于 “白噪声”。

对于任何给定的 $x\pmb{x}$ ,我们可以计算残差
$\begin{matrix} &f_i(x)=y_i - M(\pmb{x},t_i) \\ &=y_i-x_3 e^{x_1 t_i} -x_4 e^{x_2 t_i}, i=1,...,m. \end{matrix}$

对于最小二乘法的拟合，参数 $x∗\pmb{x}^*$ 由最小化残差的平方之和来确定。这可以看作是一个当 $n = 4$ 时定义1.1中的问题。 $M(x∗,t)M(\pmb{x}^*,t)$ 的图形在图1.1中以实线显示。

最小二乘问题是更一般的问题的一个特殊变体：给定一个函数 $F:Rn→RF:\mathbb{R}^n \to \mathbb{R}$ ，找到 $F$ 的一个参数，使这个所谓的目标函数或成本函数的值最小。

定义1.2. 全局最小值

给定 $F:Rn→RF:\mathbb{R^n} \to \mathbb{R}$ 。寻找
$\pmb{x}^*=argmin_{\pmb{x}}\{F(\pmb{x})\} \tag{1.2}$

这个问题在一般情况下很难解决，我们只介绍解决更简单的问题的方法，即寻找 $F$ 的局部最小化值，一个在一定区域内给出 $F$ 的最小值的参数向量。区域的大小由 $δ\delta$ 给出，其中 $δ\delta$ 是一个小的正数。

定义1.3. 局部最小值

给定 $F:Rn→RF:\mathbb{R}^n \to \mathbb{R}$ ，寻找 $x∗\pmb{x}^*$ 使得
$F(\pmb{x}^*) \leq F(\pmb{x}) \quad for \quad ||\pmb{x}- \pmb{x}^*||<\delta \tag{1.3}$

在本介绍的其余部分，我们将讨论优化的一些基本概念。第2章简要回顾了对于通用的代价函数寻找局部最小值的方法。关于更多细节，可以参考 Frandsen et al (2004)。在第三章中，我们给出了专门针对最小二乘问题的方法。

我们假设代价函数 $F$ 是可微并且平滑的，这使得下面的泰勒展开是有效的，
$F(\pmb{x}+ \pmb{h})=F(\pmb{x})+\pmb{h}^T\pmb{g}+\frac{1}{2} \pmb{h}^T\pmb{H}\pmb{h}+\mathit{O}(||\pmb{h}||^3) \tag{1.4a}$

除非另有说明， $∣∣⋅∣∣||\cdot||$ 表示2-范数， $∣∣h∣∣=h12+...+hn2||\pmb{h}||=\sqrt{h_1^2+...+h_n^2}$ 。

其中 $g\pmb{g}$ 是梯度,
$\pmb{g} = \dot{F}(\pmb{x})=\begin{bmatrix}\frac{\partial F}{\partial x_1}(\pmb{x}) \\ \vdots \\ \frac{\partial F}{\partial x_n}(\pmb{x})\end{bmatrix} \tag{1.4 b}$

$H\pmb{H}$ 是海塞矩阵
$\pmb{H}=\ddot{F}(x)=\begin{bmatrix} \frac{\partial^2 F}{\partial x_i \partial x_j}(\pmb{x})\end{bmatrix} \tag{1.4 c}$

如果 $x∗\pmb{x}^∗$ 是一个局部最小值，并且 $∣∣h∣∣||\pmb{h}||$ 足够小，那么我们就无法找到一个使得 $F$ 值更小的点 $x∗+h\pmb{x}^∗+\pmb{h}$ 。将这一观察与式（1.4a）结合起来我们可以得到

理论1.5. 局部最小值的必要条件

如果 $x∗\pmb{x}^*$ 是局部最小值，则
$\pmb{g}*=\dot{F}(\pmb{x}^*)=0$

我们对满足必要条件的参数使用一个特殊的名称:

定义1.6. 驻点

如果
$\pmb{g}_s = \dot{F}(\pmb{x}_s)=0$
则 $xs\pmb{x}_s$ 被称为 $F$ 的一个驻点。

因此，局部最小值也是一个驻点，而局部最大值也是如此。一个既不是局部最大值也不是局部最小值的静止点被称为鞍点。为了确定一个给定的驻点是否是局部最小值，我们需要在泰勒级数（1.4a）中包含二阶项。代入 $xs\pmb{x}_s$ ，我们看到
$F(\pmb{x}_s+\pmb{h})=F(\pmb{x}_s) + \frac{1}{2}\pmb{h}^T\pmb{H}_s \pmb{h}+\mathit{O}(||\pmb{h}||^3) \tag{1.7}$
其中 $Hs=F¨(xs)\pmb{H}_s = \ddot{F}(\pmb{x}_s)$

从海塞矩阵的定义（1.4c）可以看出，任何 $H\pmb{H}$ 都是一个对称矩阵。如果我们要求 $Hs\pmb{H}_s$ 是正定的，那么它的特征值需要大于某个数字 $δ>0\delta>0$ （见附录A），并且
$\pmb{h}^T\pmb{H}_s\pmb{h} \geq \delta ||\pmb{h}||^2$