题目:
大语言模型常用的 Normalization 都有什么?
答案
目前流行的主要有两种:LayerNorm 和 RMSNorm。早期的 GLM 系列曾经用过 DeepNorm,后来我印象在 ChatGLM2 的时候就改成 LayerNorm 或者 RMSNorm 了。
如果硬要再细分的话,可以根据 Norm 的位置分为 Pre-LayerNorm, Post-LayerNorm, Pre-RMSNorm, Post-RMSNorm.
下面重点看一下 LayerNorm 和 RMSNorm。大模型的 Normalization 的演进过程也挺有意思,像及了毕加索的《公牛》绘画过程。
研究人员从 LayerNorm 开始,为了提升训练效率也是拼了,一步一步简化成了 RMSNorm 的模样。
LayerNorm
其实目前主流的 Normalization 有个通用的公式
其中, 为均值, 为归一化的分母,比如对 LayerNorm 来说他是标准差,对 WeightNorm 来说是 L2 范数。 和 为可学习的参数,可以让模型根据分布 scaling 和 shifting。有的文献把 叫做 gain, 把 叫做 bias。
对于 Layer Norm 来说,可以表示为:
上面公式中, 为均值, 为标准差。
Layer Norm 出来以后,大家发现 Layer Norm 效果很好,同时也想方设法去改进。在论文《Understanding and Improving Layer Normalization》中,作者仔细研究了 Layer Norm 公式的各个部分。公式虽然简单,就看我们能不能发现可研究的点。
最终,作者做了一些实验,证明了两点:
-
γ 和 β 是数据无关的参数,如果训练和测试的分布不太一样,那就会导致 overfitting。所以作者尝试去掉 γ 和 β,然后发现效果并没有变差,反而有的会更好。
-
和 又有什么用呢?作者通过理论和实验证明了**通过减去 ,让梯度回到0附近。而除以 则让梯度的方差变小。**所以 Layer Norm 提升了训练的稳定性。
这篇论文真的是很棒,建议大家读一下原文。然后作者还提出了把 γ 和 β 变成了可对输入微分的函数,然后把这个方法叫 AdaNorm。效果也很好,不过这么做让计算变得复杂了。
RMSNorm
上面的 AdaNorm 尝试做了减法,但是又做了加法,RMSNorm 则在做减法上一条路走到黑。
RMSNorm 的作者认为,让数据和梯度变成0是否是必要的?作者把 LayerNorm 中的 和 去掉(也可以认为是这两个值变为0),就得到了 RMSNorm.
where
然后通过实验证明了这样做效果不仅没有下降,计算效率还提升了不少。
还能再优化么?
优化的方向其实也比较明确:
- 计算更快
- 能让梯度的方差变小。
看上面的公式,似乎能优化的也不多,要么把 γ 去掉,要么再修改 的计算公式,变得更简单一点。
Weight Norm 和 RMSNorm 的工作其实非常像,而且更简单,可以看下公式。
where
对比一下可以发现, Weight Norm 和 RMSNorm 就差了一个 , 但是从上图的效果对比来看,也就是 L2-Norm 那根线,效果和 RMSNorm 还是差不少的。这大概率是因为变长序列带来的影响,Weight Norm 并没有考虑长度的问题。所以去掉 这条路已经走不通了。
那改变其他的归一化方式呢?比如计算更简单的 L1 norm ?其实并不是那么好,因为 L1 norm 在0点不可导,虽然可以通过一些trick避免,但是总归是不太优雅。如果你有想法,可以评论区留言,说不定下一个标配的 Normalization 方法就是你的。
大模型使用 Normalization 汇总
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。