梯度下降方案的收敛性证明及Lipschitz常数计算
1. 引言
在优化问题中,梯度下降是一种常用的迭代算法,用于寻找函数的最小值。为了确保梯度下降算法能够收敛到函数的最优解,需要对其收敛性进行证明。同时,计算可计算的Lipschitz常数对于确定梯度下降的步长至关重要。
2. 成本函数的基本条件
在进行梯度下降收敛性证明之前,需要满足以下三个基本条件:
1. 具有分段可微的一阶导数。
2. 有下界,即函数值不会取到负无穷。
3. 具有有界的曲率。
3. 不同梯度下降方法的收敛性证明
3.1 具有Lipschitz常数固定步长的梯度下降收敛性
当函数 $g$ 的梯度具有Lipschitz连续性,常数为 $L$ 时,在梯度下降的第 $k$ 次迭代中,$g$ 有一个二次上界:
[g (w) \leq g(w_{k - 1}) + \nabla g(w_{k - 1})^T (w - w_{k - 1}) + \frac{L}{2}|w - w_{k - 1}| 2^2]
将梯度步长 $w_k = w {k - 1} - \frac{1}{L}\nabla g(w_{k - 1})$ 代入上式并化简,可得:
[g(w_k) \leq g(w_{k - 1}) - \frac{1}{2L}|\nabla g(w_{k - 1})|_2^2]
这表明具有保守固定步长的梯度步长序列是递减的。通过进一步推导,可以证明该序列收敛到梯度为零的驻点。
3.2 具有回溯线搜索的梯度下降收敛性
假设
超级会员免费看
订阅专栏 解锁全文
664

被折叠的 条评论
为什么被折叠?



