关于证明算法收敛时使用min||g_t||的原因

在探讨梯度算法及其变种时,我们常遇到步长参数α_t的选择难题。即使α_t发散,也不能直接推导出梯度范数的收敛。本文通过一个反例说明,直接从步长发散推断梯度收敛的逻辑并不成立。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在证明关于梯度算法等一系列算法的时候,我们总会得到类似如下情形的结果
在这里插入图片描述
对于α_t,我们通常设置为1/t或1/√t,有时也会这设置α_t使其满足
在这里插入图片描述
但我们并不能直接通过α_t发散来得到梯度范数收敛
下面我们给出反例:
在这里插入图片描述
故我们无法直接得到梯度收敛的结论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值