Transformer双王炸！TRA‘长度无限’内存省40倍_sleepermark: towards robust watermark against fine-优快云博客

近年来，Transformer凭借其强大的全局建模能力，成为人工智能领域的核心架构。然而，注意力机制的低效性——如过度关注噪声上下文、难以处理超长序列——始终是制约其落地的关键瓶颈。如何在有限资源下实现更精准、更鲁棒的注意力分配？

两项最新研究给出了截然不同却互补的解决方案：微软团队的Differential Transformer（差分Transformer）通过“信号差分”抑制噪声，直击注意力分散的痛点；而TRA（Threshold Relative Attention）则凭借阈值相对注意力机制，在长度泛化上实现突破，让Transformer真正拥抱“无限上下文”！

如果你正寻找Transformer优化的突破口，我这边已经帮同学们整理好了5篇transformer方向上的一些前沿文章，不助你快速切入前沿战场！

点击【AI十八式】的主页，获取更多优质资源！

【论文1】《TRA: Better Length Generalisation with Threshold Relative Attention》

方法介绍

Threshold Relative Attention（TRA）机制

选择性稀疏（Selective Sparsity）：通过设定阈值，完全屏蔽不相关的键，从而减少噪声干扰。具体实现是通过ReLU函数对语义相关性矩阵进行阈值处理，生成屏蔽矩阵。
上下文相关的相对距离（Contextualised Relative Distance）：仅在相关的键之间计算相对距离，使得位置信息能够与语义内容协同工作。通过布尔掩码和累积和操作生成上下文相关的距离矩阵。
遗忘门（Forget Gate）：通过sigmoid函数参数化距离矩阵，控制每个位置的权重衰减，使模型能够选择性地遗忘不相关的历史信息，从而实现时间记忆。

创新点

结合选择性稀疏与上下文相关距离
- TRA的核心创新在于将选择性稀疏和上下文相关的相对距离结合起来，使得位置信息能够与语义内容协同工作。这种结合解决了位置信息和语义内容之间的冲突，提高了模型在长距离依赖任务中的表现。
完全屏蔽无关信息
- TRA通过选择性稀疏机制完全屏蔽不相关的键，从而减少噪声干扰。这种机制使得模型能够专注于相关的键，提高了注意力权重的集中度和准确性。
动态位置偏置
- TRA通过遗忘门动态调整位置偏置，使得模型能够根据需要选择性地遗忘不相关的历史信息。这种动态调整机制增强了模型的时间记忆能力，使其能够更好地处理长序列。

论文链接：https://arxiv.org/abs/2503.23174

【论文2】《SleeperMark: Towards Robust Watermark against Fine-Tuning Text-to-image Diffusion Models》

方法介绍

Differential Transformer架构

核心思想：Differential Transformer通过引入一个辅助注意力头（auxiliary attention head），专门用于降低对无关键的关注，从而减少噪声干扰。
双头机制：主注意力头负责标准的注意力计算，而辅助注意力头则通过下调节（down-weighting）无关键的注意力权重来优化注意力分布。
噪声抑制：通过双头机制，模型能够更有效地聚焦于相关的键，从而提升长距离依赖任务的性能。

创新点

双注意力头机制
- Differential Transformer的核心创新在于引入了一个辅助注意力头，专门用于降低噪声干扰。这种机制使得模型能够更有效地聚焦于相关的键，从而提升注意力权重的集中度和准确性。
噪声抑制策略
- 通过辅助注意力头，Differential Transformer能够动态调整注意力权重，减少对无关键的关注。这种噪声抑制策略显著提高了模型在长序列建模中的表现。
广泛的适用性
- Differential Transformer不仅在合成任务中表现出色，在语言建模任务中也展现了强大的性能，表明其具有广泛的适用性。