【优化】梯度下降收敛性证明

最新推荐文章于 2025-07-23 19:34:54 发布

原创

最新推荐文章于 2025-07-23 19:34:54 发布 · 3w 阅读

104 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #数值分析 #最优化

本文详细探讨了梯度下降算法的收敛性，包括基础和扩展的收敛性定义，证明了梯度下降的收敛率为O(1/t)，并介绍了β平滑性质，为算法的收敛性提供理论支持。

梯度下降方法的收敛率是 $O (1 / t)$ 。

本文首先介绍梯度下降算法的定义，之后解释收敛性的意义，并给出梯度下降算法收敛性详细证明过程¹。

梯度下降算法

设系统参数为 $x$ 。对于样本 $i$ ，其代价函数为 $f_i(x)$ 。在n个样本组成的训练集上，其整体代价函数为：
$f(x)=\sum_{i=1}^nf_i(x)$

要求 $\omega$ 使得上式最小，由于没有闭式解，需要通过近似迭代逐步逼近。

梯度下降(Gradient Descent)以 $\eta$ 为学习率，在每次迭代中用一阶泰勒展开近似：
$x_{t+1}=x_t - \eta\nabla f(x)$

设 $x$ 的维度为D，代价函数 $f$ 是个标量，梯度 $\nabla f(x)$ 也是一个D维向量。

序列的收敛性

基础定义

有序列 ${x_t\}$ ，如果序号 $t$ 趋于无穷时，满足以下条件：
$\lim_{t\to \infty}\frac{x_{t+1}-x^*}{x_t-x^*}=\mu$
则称该方法收敛到 $x^*$ ，收敛率为 $\mu$ , $\mu\in(0,1)$ 。也称为以 $\mu$ 收敛到 $x^*$ 。

例：数列 ${1,1/2,1/4,1/8...}$ 收敛到 $L = 0$ ，收敛率为 $1 / 2$ 。

扩展定义

还有一些序列也会随着序号趋于某个定值，但是收敛的速率随着下标发生变化。这里引入一个扩展的收敛率定义。
如果存在序列 $\{ \epsilon_t \}$ ，根据基础收敛率定义，以收敛率 $\mu$ 收敛到0。
则如果序列 ${x_t\}$ 满足：
$|x_t-x^*|<\epsilon_t$
称该方法收敛到 $x^*$ ，收敛率为 $\epsilon_t$ 。

例：数列{1,1,1/4,1/4,1/16,1/16…}收敛到 $L = 0$ ，收敛率为 $\epsilon_t=\frac{1}{2^{t-1}}$ ={2,1,1/2,1/4,1/8,1/16…}。

梯度下降的收敛性

当我们说“梯度下降的收敛性为 $1 / t$ ”时，我们指的是：

当 $t$ 趋于无穷时，代价函数 $f(x_t)$ 收敛到最优解 $f(x^*)$ ，收敛率为 $\epsilon_t=O(1/t)$ 。

引理

这部分为收敛性证明做准备，步骤较曲折，请关注大流程。
##Lipschitz连续
如果标量函数 $f (x)$ 满足如下条件，称其满足Lipschitz连续性条件。
$|f(x_1)-f(x_2)| \leq L||x_1-x_2||$
其中 $∣ ∣ x ∣ ∣$ 表示向量的模长， $L$ 称为Lipschitz常数。对于固定的 $f$ ， $L$ 是一个定值。
这个条件对函数值的变化做出了限制。