DIFFERENTIAL TRANSFORMER

本文是LLM系列文章,针对《DIFFERENTIAL TRANSFORMER》的翻译。

摘要

Transformer倾向于将注意力过度分配到无关的上下文中。在这项工作中,我们引入了DIFF Transformer,它在消除噪声的同时增强了对相关上下文的关注。具体而言,差分注意力机制将注意力得分计算为两个单独的softmax注意力图之间的差值。减法消除了噪声,促进了稀疏注意力模式的出现。语言建模的实验结果表明,DIFF-Transformer在各种扩大模型大小和训练token的设置下都优于Transformer。更有趣的是,它在实际应用中具有显著的优势,如长上下文建模、关键信息检索、幻觉缓解、上下文学习和减少激活异常值。通过减少无关上下文的干扰,DIFF Transformer可以减轻问答和文本摘要中的幻觉。对于上下文学习,DIFF Transformer不仅提高了准确性,而且对顺序置换更具鲁棒性,这被认为是一个长期的鲁棒性问题。结果表明,DIFF Transformer是一种高效且有前景的架构,可以推进大型语言模型。

1 引言

2 差分Transformer

3 实验

4 结论

在这项工作中,我们引入了差分Transformer(也称为DIFF Transformer),它在消除噪声的同时增强了对相关上下文的关注。语言建模的实验结果表明,DIFF Transformer在缩放特性、长上下文建模、关键信息检索、幻觉缓解、上

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值