本文是LLM系列文章,针对《Thermodynamic Natural Gradient Descent》的翻译。
摘要
二阶训练方法具有比梯度下降更好的收敛性,但由于其计算开销,在大规模训练的实践中很少使用。这可以被视为硬件限制(由数字计算机施加)。在这里,我们表明,当使用适当的硬件时,自然梯度下降(NGD),一种二阶方法,每次迭代的计算复杂度与一阶方法相似。我们提出了一种新的用于训练神经网络的混合数模算法,该算法在一定的参数范围内等效于NGD,但避免了昂贵的线性系统求解。我们的算法利用了平衡时模拟系统的热力学特性,因此需要一台模拟热力学计算机。训练发生在混合数字-模拟回路中,其中在模拟动力学发生时,以给定的时间间隔计算梯度和Fisher信息矩阵(或任何其他正半定曲率矩阵)。我们在数字上证明了这种方法在分类任务和语言模型微调任务上优于最先进的数字一阶和二阶训练方法。
1 引言
2 相关工作
3 自然梯度下降
4 热力学NGD
5 实验
6 局限性
7 结论
这项工作介绍了热力学自然梯度下降(TNGD),这是一种混合数字模拟算法,利用模拟系统的热力学特性有效地进行二阶优化。TNGD大大减少了通常与任意模型体系结构的二阶方法相关的计算开销。我们在MNIST分类和语言模型微调任务上的数值结果表明,TNGD优于先进的一阶方法,如Adam,并比其他二阶优化器提供了很大的加速。这表明,当与专用硬件集成时,二阶方法有着广阔
本文提出了一种名为热力学自然梯度下降(TNGD)的混合数模算法,它在特定条件下等效于自然梯度下降(NGD),但避免了高计算成本。TNGD利用模拟系统的热力学特性,实现了与一阶方法相当的计算复杂度。实验表明,TNGD在MNIST分类和语言模型微调任务上优于一阶和二阶优化器,展示了二阶方法与专用硬件结合的潜力。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



