Transformer双王炸!TRA‘长度无限’内存省40倍

近年来,Transformer凭借其强大的全局建模能力,成为人工智能领域的核心架构。然而,注意力机制的低效性——如过度关注噪声上下文、难以处理超长序列——始终是制约其落地的关键瓶颈。如何在有限资源下实现更精准、更鲁棒的注意力分配?

两项最新研究给出了截然不同却互补的解决方案:微软团队的Differential Transformer(差分Transformer)通过“信号差分”抑制噪声,直击注意力分散的痛点;而TRA(Threshold Relative Attention)则凭借阈值相对注意力机制,在长度泛化上实现突破,让Transformer真正拥抱“无限上下文”!

如果你正寻找Transformer优化的突破口,我这边已经帮同学们整理好了5篇transformer方向上的一些前沿文章,不助你快速切入前沿战场!

点击【AI十八式】的主页,获取更多优质资源!

【论文1】《TRA: Better Length Generalisation with Threshold Relative Attention》

方法介绍

Threshold Relative Attention(TRA)机制

  • 选择性稀疏(Selective Sparsity):通过设定阈值,完全屏蔽不相关的键,从而减少噪声干扰。具体实现是通过ReLU函数对语义相关性矩阵进行阈值处理,生成屏蔽矩阵。

  • 上下文相关的相对距离(Contextualised Relative Distance):仅在相关的键之间计算相对距离,使得位置信息能够与语义内容协同工作。通过布尔掩码和累积和操作生成上下文相关的距离矩阵。

  • 遗忘门(Forget Gate):通过sigmoid函数参数化距离矩阵,控制每个位置的权重衰减,使模型能够选择性地遗忘不相关的历史信息,从而实现时间记忆。

创新点

  1. 结合选择性稀疏与上下文相关距离

    • TRA的核心创新在于将选择性稀疏和上下文相关的相对距离结合起来,使得位置信息能够与语义内容协同工作。这种结合解决了位置信息和语义内容之间的冲突,提高了模型在长距离依赖任务中的表现。

  2. 完全屏蔽无关信息

    • TRA通过选择性稀疏机制完全屏蔽不相关的键,从而减少噪声干扰。这种机制使得模型能够专注于相关的键,提高了注意力权重的集中度和准确性。

  3. 动态位置偏置

    • TRA通过遗忘门动态调整位置偏置,使得模型能够根据需要选择性地遗忘不相关的历史信息。这种动态调整机制增强了模型的时间记忆能力,使其能够更好地处理长序列。

论文链接:https://arxiv.org/abs/2503.23174

【论文2】《SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models》

方法介绍

Differential Transformer架构

  • 核心思想:Differential Transformer通过引入一个辅助注意力头(auxiliary attention head),专门用于降低对无关键的关注,从而减少噪声干扰。

  • 双头机制:主注意力头负责标准的注意力计算,而辅助注意力头则通过下调节(down-weighting)无关键的注意力权重来优化注意力分布。

  • 噪声抑制:通过双头机制,模型能够更有效地聚焦于相关的键,从而提升长距离依赖任务的性能。

创新点

  1. 双注意力头机制

    • Differential Transformer的核心创新在于引入了一个辅助注意力头,专门用于降低噪声干扰。这种机制使得模型能够更有效地聚焦于相关的键,从而提升注意力权重的集中度和准确性。

  2. 噪声抑制策略

    • 通过辅助注意力头,Differential Transformer能够动态调整注意力权重,减少对无关键的关注。这种噪声抑制策略显著提高了模型在长序列建模中的表现。

  3. 广泛的适用性

    • Differential Transformer不仅在合成任务中表现出色,在语言建模任务中也展现了强大的性能,表明其具有广泛的适用性。

论文链接:https://arxiv.org/abs/2410.05258

代码链接:https://github.com/microsoft/unilm/tree/master/Diff-Transformer

 点击【AI十八式】的主页,获取更多优质资源!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值