2025NIPS-Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

一、文章主要内容总结

该研究围绕大型语言模型(LLM)中的门控机制展开系统性探索,核心是在softmax注意力机制中引入门控变体,通过大规模实验验证其效果并揭示内在原理。

  1. 研究背景:门控机制在神经网络(如LSTM、Transformer相关模型)中广泛应用,但现有研究未充分拆解门控本身的作用(常与其他架构因素混淆),且LLM存在“注意力 sink”“大规模激活”等问题,影响训练稳定性和长文本处理能力。
  2. 核心实验设计
    • 模型规模:15B混合专家(MoE)模型和1.7B稠密模型,基于3.5万亿tokens数据集训练;
    • 门控变体:探索5个门控位置(查询/键/值投影后、SDPA输出后、最终稠密层后)、两种粒度(逐元素/逐头)、两种共享模式(头专属/头共享)、两种作用形式(乘法/加法)及两种激活函数(sigmoid/SiLU),共30余种变体;
    • 评估维度:语言建模困惑度(PPL)、多任务基准(MMLU、GSM8k等)、训练稳定性、长文本外推能力(RULER基准)。
  3. 关键发现
    • 最优门控配置:在缩放点积注意力(SDPA)输出后应用头专属sigmoid门控(G₁),效果最佳(如PPL降低0.2+,MMLU提升2个百分点);
    • 核心作用机制:① 为注意力中的低秩映射引入非线性,提升模型表达能力;② 生成查询依赖的稀疏门控分数,调制SDPA输出;
    • 附加优势:缓解“大规模激活”和“注意力 s
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值