近年来,Transformer凭借其强大的全局建模能力,成为人工智能领域的核心架构。然而,注意力机制的低效性——如过度关注噪声上下文、难以处理超长序列——始终是制约其落地的关键瓶颈。如何在有限资源下实现更精准、更鲁棒的注意力分配?
两项最新研究给出了截然不同却互补的解决方案:微软团队的Differential Transformer(差分Transformer)通过“信号差分”抑制噪声,直击注意力分散的痛点;而TRA(Threshold Relative Attention)则凭借阈值相对注意力机制,在长度泛化上实现突破,让Transformer真正拥抱“无限上下文”!
如果你正寻找Transformer优化的突破口,我这边已经帮同学们整理好了5篇transformer方向上的一些前沿文章,不助你快速切入前沿战场!
点击【AI十八式】的主页,获取更多优质资源!
【论文1】《TRA: Better Length Generalisation with Threshold Relative Attention》
方法介绍
Threshold Relative Attention(TRA)机制
-
选择性稀疏(Selective Sparsity):通过设定阈值,完全屏蔽不相关的键,从而减少噪声干扰。具体实现是通过ReLU函数对语义相关性矩阵进行阈值处理,生成屏蔽矩阵。
-
上下文相关的相对距离(Contextualised Relative Distance):仅在相关的键之间计算相对距离,使得位置信息能够与语义内容协同工作。通过布尔掩码和累积和操作生成上下文相关的距离矩阵。
-
遗忘门(Forget Gate):通过sigmoid函数参数化距离矩阵,控制每个位置的权重衰减,使模型能够选择性地遗忘不相关的历史信息,从而实现时间记忆。
创新点
-
结合选择性稀疏与上下文相关距离
-
TRA的核心创新在于将选择性稀疏和上下文相关的相对距离结合起来,使得位置信息能够与语义内容协同工作。这种结合解决了位置信息和语义内容之间的冲突,提高了模型在长距离依赖任务中的表现。
-
-
完全屏蔽无关信息
-
TRA通过选择性稀疏机制完全屏蔽不相关的键,从而减少噪声干扰。这种机制使得模型能够专注于相关的键,提高了注意力权重的集中度和准确性。
-
-
动态位置偏置
-
TRA通过遗忘门动态调整位置偏置,使得模型能够根据需要选择性地遗忘不相关的历史信息。这种动态调整机制增强了模型的时间记忆能力,使其能够更好地处理长序列。
-
论文链接:https://arxiv.org/abs/2503.23174
【论文2】《SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models》
方法介绍
Differential Transformer架构
-
核心思想:Differential Transformer通过引入一个辅助注意力头(auxiliary attention head),专门用于降低对无关键的关注,从而减少噪声干扰。
-
双头机制:主注意力头负责标准的注意力计算,而辅助注意力头则通过下调节(down-weighting)无关键的注意力权重来优化注意力分布。
-
噪声抑制:通过双头机制,模型能够更有效地聚焦于相关的键,从而提升长距离依赖任务的性能。
创新点
-
双注意力头机制
-
Differential Transformer的核心创新在于引入了一个辅助注意力头,专门用于降低噪声干扰。这种机制使得模型能够更有效地聚焦于相关的键,从而提升注意力权重的集中度和准确性。
-
-
噪声抑制策略
-
通过辅助注意力头,Differential Transformer能够动态调整注意力权重,减少对无关键的关注。这种噪声抑制策略显著提高了模型在长序列建模中的表现。
-
-
广泛的适用性
-
Differential Transformer不仅在合成任务中表现出色,在语言建模任务中也展现了强大的性能,表明其具有广泛的适用性。
-
论文链接:https://arxiv.org/abs/2410.05258
代码链接:https://github.com/microsoft/unilm/tree/master/Diff-Transformer
点击【AI十八式】的主页,获取更多优质资源!

被折叠的 条评论
为什么被折叠?



