一、文章主要内容总结
该研究围绕大型语言模型(LLM)中的门控机制展开系统性探索,核心是在softmax注意力机制中引入门控变体,通过大规模实验验证其效果并揭示内在原理。
- 研究背景:门控机制在神经网络(如LSTM、Transformer相关模型)中广泛应用,但现有研究未充分拆解门控本身的作用(常与其他架构因素混淆),且LLM存在“注意力 sink”“大规模激活”等问题,影响训练稳定性和长文本处理能力。
- 核心实验设计:
- 模型规模:15B混合专家(MoE)模型和1.7B稠密模型,基于3.5万亿tokens数据集训练;
- 门控变体:探索5个门控位置(查询/键/值投影后、SDPA输出后、最终稠密层后)、两种粒度(逐元素/逐头)、两种共享模式(头专属/头共享)、两种作用形式(乘法/加法)及两种激活函数(sigmoid/SiLU),共30余种变体;
- 评估维度:语言建模困惑度(PPL)、多任务基准(MMLU、GSM8k等)、训练稳定性、长文本外推能力(RULER基准)。
- 关键发现:
- 最优门控配置:在缩放点积注意力(SDPA)输出后应用头专属sigmoid门控(G₁),效果最佳(如PPL降低0.2+,MMLU提升2个百分点);
- 核心作用机制:① 为注意力中的低秩映射引入非线性,提升模型表达能力;② 生成查询依赖的稀疏门控分数,调制SDPA输出;
- 附加优势:缓解“大规模激活”和“注意力 s

订阅专栏 解锁全文
2187

被折叠的 条评论
为什么被折叠?



