METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS 翻译(二)

METHODS FOR NON-LINEAR LEAST SQUARES PROBLEMS(二)

2. 下降方法

所有非线性优化的方法都基于是迭代的。从一个起点 x0\pmb{x}_0xxx0开始,该方法产生一系列的向量 x1,x2,...,\pmb{x}_1,\pmb{x}_2,...,xxx1,xxx2,...,(希望能) 收敛到 x∗\pmb{x}^∗xxx ,即给定函数的局部最小值,见定义1.3.。大多数方法都有强制执行下降条件的措施
F(xk+1)<F(xk)(2.1) F(\pmb{x}_{k+1}) < F(\pmb{x}_k) \tag{2.1} F(xxxk+1)<F(xxxk)(2.1)

这可以防止收敛到最大值,也使我们收敛到鞍点的概率降低。如果给定的函数有几个最小值,其结果将取决于起始点 x0\pmb{x}_0xxx0。我们不知道哪一个最小值将被发现;它不一定是最接近 x0\pmb{x}_0xxx0 的最小值。

在许多情况下,该方法产生的向量会在两个明显不同的阶段向最小值收敛。当 x0\pmb{x}_0xxx0 离解很远时 我们希望该方法产生的迭代结果能稳定地朝向 x∗\pmb{x}^∗xxx 移动。在这个迭代的 “全局阶段”,除非是在最初的步骤中, 如果误差不增加,我们就满意了。即
∣∣ek+1∣∣<∣∣ek∣∣fork>K ||\pmb{e}_{k+1}|| < ||\pmb{e}_k|| \quad for \quad k>K eeek+1<eeekfork>K

其中 ek\pmb{e}_keeek 表示当前的误差,
ek=xk−x∗(2.2) \pmb{e}_k = \pmb{x}_k - \pmb{x}^* \tag{2.2} eeek=xxxkxxx(2.2)

在迭代的最后阶段,即当 xk\pmb{x}_kxxxk 接近 x∗\pmb{x}^∗xxx 时,我们希望更快的收敛。我们对以下情况进行区分

  • 线性收敛:
    ∣∣ek+1∣∣≤a∣∣ek∣∣when ∣∣ek∣∣ is small;0<a<1,(2.3a) ||\pmb{e}_{k+1}|| \leq a||\pmb{e}_k|| \quad when \, ||\pmb{e}_k|| \, is \, small; \quad 0<a<1, \tag{2.3a} eeek+1aeeekwheneeekissmall;0<a<1,(2.3a)
  • 二次收敛:
    ∣∣ek+1∣∣=O(∣∣ek∣∣2)when ∣∣ek∣∣ is small(2.3b) ||\pmb{e}_{k+1}||=\mathit{O}(||\pmb{e}_k||^2) \quad when \, ||e_k|| \, is \, small \tag{2.3b} eeek+1=O(eeek2)whenekissmall(2.3b)
  • 超线性收敛:
    ∣∣ek+1∣∣/∣∣ek∣∣→0for k→∞(2.3c) ||\pmb{e}_{k+1}||/||\pmb{e}_k||\to 0 \quad for \, k \to \infty \tag{2.3c} eeek+1/eeek0fork(2.3c)

本讲义中介绍的方法是在迭代的每一步都满足下降条件(2.1)的下降方法。当前迭代的一步包括

  1. 找到一个下降方向 hd\pmb{h}_dhhhd(在下面讨论),并且
  2. 找到一个能很好地减少 FFF 值的步长。

因此,一个下降方法的概要是
请添加图片描述

考虑 FFF 值沿着以 x\pmb{x}xxx 为起点,以 h\pmb{h}hhh 为方向的的直线的变化情况。从泰勒展开(1.4a)中我们可以看到
F(x+αh)=F(x)+αhTF˙(x)+O(α2)≈F(x)+αhTF˙(x)for α sufficiently small(2.5) F(\pmb{x}+\alpha \pmb{h})=F(\pmb{x})+\alpha \pmb{h}^T \dot{F}(\pmb{x}) + \mathit{O}(\alpha^2) \\ \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \quad \approx F(\pmb{x}) + \alpha \pmb{h}^T \dot{F}(\pmb{x}) \quad for \, \alpha \, sufficiently \, small \tag{2.5} F(xxx+αhhh)=F(xxx)+αhhhTF˙(xxx)+O(α2)F(xxx)+αhhhTF˙(xxx)forαsufficientlysmall(2.5)

如果 F(x+αh)F(\pmb{x}+\alpha \pmb{h})F(xxx+αhhh)α=1\alpha=1α=1 时是关于 α\alphaα 的递减函数,我们就说 h\pmb{h}hhh 是一个下降方向。 这引出了以下定义。

定义2.6. 下降方向

如果 hTF(x)<0\pmb{h}^TF(\pmb{x})<0hhhTF(xxx)<0,则 h\pmb{h}hhhFFFx\pmb{x}xxx 处的下降方向。

如果不存在这样的 h\pmb{h}hhh,则 F˙(x)=0\dot{F}(\pmb{x})=0F˙(xxx)=0,表明在这种情况下 x\pmb{x}xxx 是驻点。否则,我们必须选择α\alphaα,即我们应该在 hd\pmb{h}_dhhhd 给定的方向上从 x\pmb{x}xxx 出发移动多远,以便得到目标函数值的减少。这样做的一个方法是找到(一个近似值)
αe=argminα>0{ F(x+αh)}(2.7) \alpha_e = argmin_{\alpha > 0}\{F(\pmb{x}+\alpha \pmb{h})\} \tag{2.7} αe=argminα>0{ F(xxx+αhhh)}(2.7)

这个过程被称为线搜索,并将在第 2.3 节中讨论。然而,首先我们将介绍两种计算下降方向的方法。

2.1 最陡峭的下降方法

从(2.5)中我们可以看出,当我们执行一个具有正的 α\alphaα 值的步长 αh\alpha \pmb{h}αhhh 时,那么 目标函数值的相对增益满足
lim⁡α→0F(x)−F(x+αh)α∣∣h∣∣=−1∣∣h∣∣hTF˙(x)=−∣∣F˙(x)∣∣cosθ \lim_{\alpha \to 0} \frac{F(\pmb{x}) - F(\pmb{x}+\alpha \pmb{h})}{\alpha ||\pmb{h}||} = - \frac{1}{||\pmb{h}||} \pmb{h}^T \dot{F}(\pmb{x}) = - ||\dot{F}(\pmb{x})||cos \theta α0limαhhh

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值