Meta：去除Transformer的归一化

最新推荐文章于 2025-04-12 00:38:33 发布

大模型任我行

最新推荐文章于 2025-04-12 00:38:33 发布

阅读量701

点赞数 28

分类专栏：大模型-结构原理文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.youkuaiyun.com/weixin_46739757/article/details/146300967

版权

大模型-结构原理专栏收录该内容

54 篇文章

订阅专栏

在这里插入图片描述

📖标题：Transformers without Normalization
🌐来源：arXiv, 2503.10622

🌟摘要

🔸归一化层在现代神经网络中无处不在，长期以来一直被认为是必不可少的。这项工作表明，没有归一化的变形金刚可以使用非常简单的技术实现相同或更好的性能。
🔸我们引入了动态 Tanh (DyT)，这是一种元素操作 DyT (x) = tanh(αx)，作为 Transformer 中归一化层的替代品。DyT的灵感来自于观察到 Transformers 中的层归一化通常会产生类似 tanh 的 S 形状的输入输出映射。通过结合 DyT，没有归一化的 Transformer 可以匹配或超过其归一化对应物的性能，主要是在没有超参数调整的情况下。
🔸我们在不同的环境中验证了具有 DyT 的 Transformer 的有效性，范围从识别到生成、监督到自我监督学习以及计算机视觉到语言模型。这些发现挑战了传统理解，即归一化层在现代神经网络中是必不可少的，并为它们在深度网络中的作用提供了新的见解。

🛎️文章简介

🔸研究问题：论文挑战了在现代神经网络训练中归一化层的必要性，探讨了可替代归一化层的简单方法——动态tanh（DyT）。
🔸主要贡献：论文提出了DyT作为归一化层的替代方案，并通过实验证明DyT在多种任务和模型架构中能够有效替代传统的归一化方法，且不需要计算激活统计量。

📝重点思路

🔸 介绍了传统归一化层的背景，强调它们在优化过程中的重要性。
🔸 提出了动态tanh（DyT），其定义为DyT(x) = tanh(αx)，其中α为可学习参数，旨在模拟归一化层的行为。
🔸 通过替换Transformer及其他现代架构中的归一化层，实验证明DyT的有效性。
🔸 进行了多种实验，包括在视觉分类、自监督学习和语言模型中的应用，比较DyT与传统归一化层的性能。

🔎分析总结

🔸 实验结果显示，在视觉Transformer（ViT）和ConvNeXt模型上，DyT的分类准确性与传统层归一化（LN）相当，甚至略有改善。
🔸 在自监督学习任务中，DyT的表现与LN相当，显示出其在无标签数据训练中的有效性。
🔸 在大语言模型（LLM）中，DyT与根均方归一化（RMSNorm）对比，表现出相似的训练损失和零样本任务性能。
🔸 研究还探讨了DyT在不同模型中的计算效率和参数α的初始化对训练稳定性的影响，得出动态调整α能够提高模型性能的结论。