大模型训练loss突然暴涨？不要慌...

最新推荐文章于 2025-02-18 15:47:57 发布

AI大模型-上马定江山

最新推荐文章于 2025-02-18 15:47:57 发布

阅读量1.5k

点赞数 27

CC 4.0 BY-SA版权

文章标签：人工智能语言模型 agi ai LLM 大模型训练 loss

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Android23333/article/details/144105181

前言

最近阅读了《A Theory on Adam Instability in Large-Scale Machine Learning 》这篇论文。

比较全面的阐述了 100B 以上的大模型预训练中出现 loss spike 的原因(loss 突然大幅度上涨)，并介绍了一些可能的解决办法。

论文写的非常精彩，但整体上有点散和深，我尝试着站在工业立场上把它串一下。

1、突刺是什么

首先介绍一下什么是 loss spike： loss spike 指的是预训练过程中，尤其容易在大模型（100B 以上）预训练过程中出现的 loss 突然暴涨的情况。

如图所示模型训练过程中红框中突然上涨的 loss 尖峰 loss spike 的现象会导致一系列的问题发生。

譬如模型需要很长时间才能再次回到 spike 之前的状态（论文中称为 pre-explosion），或者更严重的就是 loss 再也无法 drop back down，即模型再也无法收敛。

PaLM 和 GLM130b 之前的解决办法是找到 loss spike 之前最近的 checkpoint，更换之后的训练样本来避免 loss spike 的出现。

2、突刺成因分析

这篇论文（以下称本文）对 loss spike 的出现原因做了十分详细的分析，最后认为预训练使用的 Adam 优化器是导致这个现象出现的重要原因之一。

首先回顾一下 Adam 优化器的结构（这里介绍的是较为传统的 Adam 优化器，现在 nlp 任务更偏向于使用带有正则化项的 Adamw 变体）：

本文首先对 Adam 的有效性做了论述，其本质在于证明了 Adam 优化过程是对牛顿下降法（二阶导）的一个有效逼近。

因此在收敛速度上大幅度领先传统 SGD(一阶导)，证明过程不做赘述，可以参考本文和 Adam 系列相关论文。

Adam 算法是牛顿下降法的一个迭代逼近：

一切显得十分完美，但是理想很丰满，现实很骨感，收敛过程并不是一帆风顺的。

非稳态

中间态

稳态

进入正态分布的稳态之后，理想的更新参数变化趋势应该是方差越来越小，所有更新参数逐渐向 0 靠近。

这应该是一个单向的过程，即稳定的单峰状态（unimodal）不会再次进入非稳定的双峰状态(bimodal)，但事实并非如此，更新参数会再次进入非稳定的双峰状态。

本文在理论层面做了研究和解释，从中心极限定理（可以结合道尔顿板实验理解）出发，认为随机事件的叠加进入单峰的正态分布的必要条件之一是各个随机事件事件之间应该是相互独立的。

但是梯度变化以及更新参数的变化并不能特别好的满足独立性这一条件，而这一点恰恰是导致更新参数振荡，loss spike 出现以及 loss 不收敛的重要原因之一。

造成梯度变化不独立的原因：

浅层参数长时间不更新‍
batch 太大，后期梯度更新趋于平稳

上述的理论有些晦涩，本文作者可能也了解这一点，之后开始直接点题，结合实验观察抛出了重要现象和结论。

本文作者对 loss spike 出现时模型的前后变化做了仔细拆解，发现下列一系列连续现象的出现导致了 loss spike：

3、突刺解法

本文最后提到了防止 loss spike 出现的一些方法：

另外假设我们能一次性加载所有样本进行训练（实际上不可能做到），是否还会出现 loss spike 的现象。‍

最后的最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

大模型知识脑图

为了成为更好的 AI大模型开发者，这里为大家提供了总的路线图。它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。