NLP面试官：“大模型常用的 Normalization 都有什么？ ” 算法女生表示易如反掌

原创于 2024-10-15 11:39:33 发布 · 1.1k 阅读

·

11

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #算法 #人工智能 #大模型 #大模型面试 #NLP #计算机技术

题目：

大语言模型常用的 Normalization 都有什么？

答案

目前流行的主要有两种：LayerNorm 和 RMSNorm。早期的 GLM 系列曾经用过 DeepNorm，后来我印象在 ChatGLM2 的时候就改成 LayerNorm 或者 RMSNorm 了。

如果硬要再细分的话，可以根据 Norm 的位置分为 Pre-LayerNorm, Post-LayerNorm, Pre-RMSNorm, Post-RMSNorm.

下面重点看一下 LayerNorm 和 RMSNorm。大模型的 Normalization 的演进过程也挺有意思，像及了毕加索的《公牛》绘画过程。

在这里插入图片描述

研究人员从 LayerNorm 开始，为了提升训练效率也是拼了，一步一步简化成了 RMSNorm 的模样。

LayerNorm

其实目前主流的 Normalization 有个通用的公式

其中，为均值，为归一化的分母，比如对 LayerNorm 来说他是标准差，对 WeightNorm 来说是 L2 范数。和为可学习的参数，可以让模型根据分布 scaling 和 shifting。有的文献把叫做 gain, 把叫做 bias。

对于 Layer Norm 来说，可以表示为：

上面公式中，为均值，为标准差。

Layer Norm 出来以后，大家发现 Layer Norm 效果很好，同时也想方设法去改进。在论文《Understanding and Improving Layer Normalization》中，作者仔细研究了 Layer Norm 公式的各个部分。公式虽然简单，就看我们能不能发现可研究的点。

最终，作者做了一些实验，证明了两点：

γ 和 β 是数据无关的参数，如果训练和测试的分布不太一样，那就会导致 overfitting。所以作者尝试去掉 γ 和 β，然后发现效果并没有变差，反而有的会更好。
和又有什么用呢？作者通过理论和实验证明了**通过减去，让梯度回到0附近。而除以则让梯度的方差变小。**所以 Layer Norm 提升了训练的稳定性。

这篇论文真的是很棒，建议大家读一下原文。然后作者还提出了把 γ 和 β 变成了可对输入微分的函数，然后把这个方法叫 AdaNorm。效果也很好，不过这么做让计算变得复杂了。

RMSNorm

上面的 AdaNorm 尝试做了减法，但是又做了加法，RMSNorm 则在做减法上一条路走到黑。

RMSNorm 的作者认为，让数据和梯度变成0是否是必要的？作者把 LayerNorm 中的和去掉(也可以认为是这两个值变为0)，就得到了 RMSNorm.

where

然后通过实验证明了这样做效果不仅没有下降，计算效率还提升了不少。

在这里插入图片描述

还能再优化么？

优化的方向其实也比较明确：

计算更快
能让梯度的方差变小。

看上面的公式，似乎能优化的也不多，要么把 γ 去掉，要么再修改的计算公式，变得更简单一点。

Weight Norm 和 RMSNorm 的工作其实非常像，而且更简单，可以看下公式。

where

对比一下可以发现， Weight Norm 和 RMSNorm 就差了一个 , 但是从上图的效果对比来看，也就是 L2-Norm 那根线，效果和 RMSNorm 还是差不少的。这大概率是因为变长序列带来的影响，Weight Norm 并没有考虑长度的问题。所以去掉这条路已经走不通了。

那改变其他的归一化方式呢？比如计算更简单的 L1 norm ？其实并不是那么好，因为 L1 norm 在0点不可导，虽然可以通过一些trick避免，但是总归是不太优雅。如果你有想法，可以评论区留言，说不定下一个标配的 Normalization 方法就是你的。

大模型使用 Normalization 汇总

在这里插入图片描述

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云，朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。