从次线性到线性:通过局部Polyak-Lojasiewicz区域实现深度网络的快速收敛
梯度下降(GD)在深度神经网络(DNN)非凸损失景观上的收敛性是一个基础性理论挑战。虽然近期研究已证明GD在局部拟凸区域(LQCRs)内以次线性速率收敛至驻点,但这无法解释实践中持续观察到的指数级收敛速率。
本文通过神经正切核(NTK)稳定性假设解决了这一差异,证明这些相同区域满足局部Polyak-Lojasiewicz(PL)条件。引入了局部Polyak-Lojasiewicz区域(LPLR)概念,其中梯度平方范数下界于次优间隙,证明了适当初始化的有限宽度网络在初始化点附近存在此类区域,并确立GD在LPLR内实现线性收敛,首次提供与实证观察速率匹配的有限宽度保证。
通过从全连接网络的受控实验到采用随机方法训练的现代残差网络架构的多样化设置验证理论,证明LPLR结构在实际深度学习场景中稳健涌现。通过NTK框架严格连接局部景观几何与快速优化,为基于梯度的优化在深度学习中的卓越效率提供确定性理论解释。
主题分类:
机器学习(stat.ML);机器学习(cs.LG)
MSC分类:
68T07, 90C26, 65K10
引用信息:
arXiv:2507.21429 [stat.ML]
DOI: 10.48550/arXiv.2507.21429
提交历史:
2025年7月29日由Agnideep Aich提交
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

3504

被折叠的 条评论
为什么被折叠?



