深度网络局部PL区域实现线性收敛突破

从次线性到线性:通过局部Polyak-Lojasiewicz区域实现深度网络的快速收敛

梯度下降(GD)在深度神经网络(DNN)非凸损失景观上的收敛性是一个基础性理论挑战。虽然近期研究已证明GD在局部拟凸区域(LQCRs)内以次线性速率收敛至驻点,但这无法解释实践中持续观察到的指数级收敛速率。

本文通过神经正切核(NTK)稳定性假设解决了这一差异,证明这些相同区域满足局部Polyak-Lojasiewicz(PL)条件。引入了局部Polyak-Lojasiewicz区域(LPLR)概念,其中梯度平方范数下界于次优间隙,证明了适当初始化的有限宽度网络在初始化点附近存在此类区域,并确立GD在LPLR内实现线性收敛,首次提供与实证观察速率匹配的有限宽度保证。

通过从全连接网络的受控实验到采用随机方法训练的现代残差网络架构的多样化设置验证理论,证明LPLR结构在实际深度学习场景中稳健涌现。通过NTK框架严格连接局部景观几何与快速优化,为基于梯度的优化在深度学习中的卓越效率提供确定性理论解释。

主题分类
机器学习(stat.ML);机器学习(cs.LG)

MSC分类
68T07, 90C26, 65K10

引用信息
arXiv:2507.21429 [stat.ML]
DOI: 10.48550/arXiv.2507.21429

提交历史
2025年7月29日由Agnideep Aich提交
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值