NLP面试官:“大模型常用的 Normalization 都有什么? ” 算法女生表示易如反掌

题目:

大语言模型常用的 Normalization 都有什么?

答案

目前流行的主要有两种:LayerNorm 和 RMSNorm。早期的 GLM 系列曾经用过 DeepNorm,后来我印象在 ChatGLM2 的时候就改成 LayerNorm 或者 RMSNorm 了。

如果硬要再细分的话,可以根据 Norm 的位置分为 Pre-LayerNorm, Post-LayerNorm, Pre-RMSNorm, Post-RMSNorm.

下面重点看一下 LayerNorm 和 RMSNorm。大模型的 Normalization 的演进过程也挺有意思,像及了毕加索的《公牛》绘画过程。

在这里插入图片描述

研究人员从 LayerNorm 开始,为了提升训练效率也是拼了,一步一步简化成了 RMSNorm 的模样

LayerNorm

其实目前主流的 Normalization 有个通用的公式

其中, 为均值, 为归一化的分母,比如对 LayerNorm 来说他是标准差,对 WeightNorm 来说是 L2 范数。 和 为可学习的参数,可以让模型根据分布 scaling 和 shifting。有的文献把 叫做 gain, 把 叫做 bias。

对于 Layer Norm 来说,可以表示为:

上面公式中, 为均值, 为标准差。

Layer Norm 出来以后,大家发现 Layer Norm 效果很好,同时也想方设法去改进。在论文《Understanding and Improving Layer Normalization》中,作者仔细研究了 Layer Norm 公式的各个部分。公式虽然简单,就看我们能不能发现可研究的点。

最终,作者做了一些实验,证明了两点:

  1. γ 和 β 是数据无关的参数,如果训练和测试的分布不太一样,那就会导致 overfitting。所以作者尝试去掉 γ 和 β,然后发现效果并没有变差,反而有的会更好。

    在这里插入图片描述

  2. 和 又有什么用呢?作者通过理论和实验证明了**通过减去 ,让梯度回到0附近。而除以 则让梯度的方差变小。**所以 Layer Norm 提升了训练的稳定性。

这篇论文真的是很棒,建议大家读一下原文。然后作者还提出了把 γ 和 β 变成了可对输入微分的函数,然后把这个方法叫 AdaNorm。效果也很好,不过这么做让计算变得复杂了。

RMSNorm

上面的 AdaNorm 尝试做了减法,但是又做了加法,RMSNorm 则在做减法上一条路走到黑。

RMSNorm 的作者认为,让数据和梯度变成0是否是必要的?作者把 LayerNorm 中的 和 去掉(也可以认为是这两个值变为0),就得到了 RMSNorm.

where

然后通过实验证明了这样做效果不仅没有下降,计算效率还提升了不少。

在这里插入图片描述

还能再优化么?

优化的方向其实也比较明确:

  1. 计算更快
  2. 能让梯度的方差变小。

看上面的公式,似乎能优化的也不多,要么把 γ 去掉,要么再修改 的计算公式,变得更简单一点。

Weight Norm 和 RMSNorm 的工作其实非常像,而且更简单,可以看下公式。

where

对比一下可以发现, Weight Norm 和 RMSNorm 就差了一个 , 但是从上图的效果对比来看,也就是 L2-Norm 那根线,效果和 RMSNorm 还是差不少的。这大概率是因为变长序列带来的影响,Weight Norm 并没有考虑长度的问题。所以去掉 这条路已经走不通了。

那改变其他的归一化方式呢?比如计算更简单的 L1 norm ?其实并不是那么好,因为 L1 norm 在0点不可导,虽然可以通过一些trick避免,但是总归是不太优雅。如果你有想法,可以评论区留言,说不定下一个标配的 Normalization 方法就是你的。

大模型使用 Normalization 汇总

在这里插入图片描述

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值