[Base]DIFFERENTIAL TRANSFORMER

最新推荐文章于 2025-08-05 01:45:54 发布

Xy-unu

最新推荐文章于 2025-08-05 01:45:54 发布

阅读量444

点赞数 6

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_45863274/article/details/143674905

1. BaseInfo


Title	DIFFERENTIAL TRANSFORMER
Adress	https://arxiv.org/pdf/2410.05258
Journal/Time	202410
Author	微软研究院和清华大学提出
Code	https://aka.ms/Diff-Transformer
Read	241111

2. Creative Q&A

减少对无关上下文的关注；
通过计算两个Softmax注意力权重的差值来抵消噪音；

3. Concrete

将查询和键向量分为两组，并计算两个独立的 softmax 注意力图。
LLaMA 的结构，把中间的 Attention 变为 Diff-Attention
在这里插入图片描述

主要区别在于修改了注意力的softmax过程，并且采用了pre-RMSNorm、SwiGLU等改进。

3.3. Eval

在 LLM 上进行对比的。 StableLM-3B-4E1T。

3.4. Ablation

4. Reference

【85、Differential Transformer 论文原理逐段讲解】 https://www.bilibili.com/video/BV1Jq1PYPEYG/?share_source=copy_web&vd_source=de14afcd5ebe6d387a25fcaeaeafa1c7

5. Additional

主要是在大语言模型上的应用。差分的想法挺有意思的。得看看代码。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Xy-unu

关注关注

6
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

DIFFERENTIAL TRANSFORMER

c_cpp_csharp的专栏

10-16

744

Transformer倾向于将注意力过度分配到无关的上下文中。在这项工作中，我们引入了DIFF Transformer，它在消除噪声的同时增强了对相关上下文的关注。具体而言，差分注意力机制将注意力得分计算为两个单独的softmax注意力图之间的差值。减法消除了噪声，促进了稀疏注意力模式的出现。语言建模的实验结果表明，DIFF-Transformer在各种扩大模型大小和训练token的设置下都优于Transformer。

前沿技术视角下Transformer的安全问题

AI天才研究院

07-20

739

本文旨在全面剖析Transformer模型在安全领域面临的挑战和解决方案。研究范围涵盖自然语言处理(NLP)和计算机视觉(CV)领域中基于Transformer的模型，包括但不限于BERT、GPT系列、Vision Transformer等主流架构。文章首先介绍Transformer的基本安全背景，然后深入分析四类主要安全问题，每类问题都配有技术原理、数学表达、代码实现和防御方案。最后讨论未来发展趋势和挑战。对抗攻击(Adversarial Attack)

参与评论您还未登录，请先登录后发表或查看评论

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

weixin_41446370的博客

10-13

859

想象一下，你想在文件中找一个关键信息，结果Transformer模型的注意力却分散到各种无关的地方，就像一个近视眼，看不清重点。在关键信息检索方面，Differential Transformer 就像一个精准的搜索引擎，能够在海量信息中准确地找到你想要的内容，即使是在信息极其复杂的场景下，也能保持高准确率。此外，Differential Transformer 还能有效地降低模型激活值中的异常值，这意味着它对模型量化更友好，可以实现更低比特的量化，从而提高模型的效率。

【技术追踪】Differential Transformer（ICLR-2025）

风巽·剑染春水的博客

04-21

1059

Transformer 倾向于过度分配注意力到无关的上下文。在这项工作中，本文引入了 DIFF Transformer，它放大了对相关上下文的注意力，同时消除了噪声。具体来说，差分注意力机制（differential attention mechanism）将注意力分数计算为两个独立的 softmax 注意力图之间的差。减法可以消除噪声，促进稀疏注意力模式的出现。

Differential Transformer 架构解析

qq_52635735的博客

02-25

2135

Diff Transformer在XSum、CNN/DM等数据集上的幻觉率降低。

Diffusion Transformer与Differential Transformer：技术创新与应用前景

qq_28704101的博客

01-08

1131

随着技术的不断发展，Diffusion Transformer和Differential Transformer等新型架构逐步涌现，为生成模型和注意力机制带来了突破性的进展。Diffusion Transformer（扩散Transformer）结合了扩散模型和Transformer架构的优势，用于生成高质量数据。Differential Transformer（差分Transformer）通过引入差分注意力机制改进了传统Transformer的注意力机制。

【模型解释性工具箱】：掌握解释Transformer模型预测结果的方法与工具

![【模型解释性工具箱】：掌握解释Transformer模型预测结果的方法与工具]...首先，本文介绍了模型解释性的必要性和理论框架，重点分析了Transformer模型

一文看懂：AI于心理健康监测的前沿应用

最新发布

AI天才研究院

08-05

557

AI心理健康监测的本质是从高维、异质数据中学习“心理状态-行为/生理信号”的映射关系状态识别：准确判断用户当前的心理状态（如抑郁、焦虑、压力）；早期预警：提前预测心理问题的发作（如抑郁发作前1-3个月）；个性化干预：根据用户特征（如年龄、性别、病史）提供定制化建议（如认知行为疗法CBT的AI引导）；效果评估：跟踪干预后的心理状态变化，优化干预策略。AI心理健康监测的核心价值不是“替代心理医生”，而是赋能心理医生。

AI原生应用开发：使用Python构建企业级智能系统的完整教程

AI天才研究院

05-27

994

随着生成式AI（AIGC）、多模态大模型的爆发，企业IT系统正从"软件原生"向"AI原生"演进。传统应用以功能逻辑为核心，而AI原生应用以"数据-模型"双轮驱动为核心，要求系统具备持续学习、动态优化、实时决策等能力。AI原生应用的核心特征与技术栈从0到1构建智能系统的全生命周期方法论基于Python的关键技术实现（数据处理、模型训练、工程化部署）企业级落地的常见挑战与解决方案核心概念：定义AI原生应用的技术特征与架构范式算法与数学：解析企业级常用模型的原理与数学表达。

大语言模型应用指南：Adapter高效微调

AI天才研究院

11-15

1107

《大语言模型应用指南：Adapter高效微调》关键词：大语言模型，Adapter，微调，自然语言处理，Transformer，BERT 摘要：本文将深入探讨大语言模型的概念

如何通过 Differential Transformer 实现 AI 模型的“聪明”升级？

知道者

10-09

549

在 AI 领域，我们经常面临这样的问题：模型的性能是提升了，但计算资源和时间的消耗也大幅增加。这就像你购买了一辆豪车，性能极佳，但每公里的油耗让你心疼。这时，可能你会思考，有没有办法让 AI 模型保持高性能的同时，又能减少不必要的资源浪费？就是在这个背景下应运而生的。

提升大模型性能：Differential Transformer的差分注意力机制深度解析

2401_84204207的博客

12-16

1364

DIFF Transformer通过创新的差分注意力机制成功提升了模型性能，特别是在长文本理解、关键信息检索和模型鲁棒性等方面。虽然存在一些计算效率和内存使用的权衡，但考虑到显著的性能提升和更少的参数需求，这是一个非常有价值的改进。这项工作为大语言模型的架构设计提供了新的思路，也为后续研究指明了几个重要的优化方向。

图像生成模型王牌——Diffusion Transformers系列工作梳理

weixin_40920183的博客

06-17

2014

图像生成模型是目前业内研究的焦点，而目前诸如Sora等前沿生成模型，其所基于的主体架构都是Diffusion Transformers（DiT）。Diffusion Transformers（DiT）是论文Scalable Diffusion Models with Transformers（ICCV 2023）中提出的，是扩散模型和Transformer的结合，也是Sora使用的底层生成模型架构...

Differential Transformer: 通过差分注意力机制提升大语言模型性能

deephub

12-15

6423

[转载]用物理学革新Transformer注意力：「差分注意力」（differential attention）机制消除注意力噪声

wuling129的专栏

10-15

1743

随着近些年来NLP领域研究的不断深入，我们逐渐发现，Transformer架构中出现的幻觉问题，以及各种下游任务中的性能不足，都或多或少与注意力缺陷有关。虽然上下文窗口可以扩展，但是Transformer还是无法真正关注到有价值的信息。最近，微软研究院和清华大学的研究人员共同提出了一种新的模型架构——Differential Transformer，不仅保留了原始Transformer中的可扩展性，也能让模型更加关注上下文中与任务相关的关键信息。

传神论文中心｜第28期人工智能领域论文推荐

OpenCSG的博客

10-17

777

尤其是在张量处理硬件中的应用，L-Mul 操作大幅降低了能耗，在逐元素张量乘法和点积计算中分别减少了 95% 和 80% 的能耗，极具应用前景，为高效计算硬件设计带来了全新的方向。即使是表现最好的智能体，在独立任务完成率和借助专家知识后的表现仍存在明显不足，为进一步提升智能体在科学任务中的能力提供了关键指引，展示了未来研究的巨大潜力。凭借对 47,000 多种工具的实验结果，ToolGen 展现了其在工具检索和自主任务执行中的卓越表现，为增强语言模型的工具使用能力提供了新的思路和实践。

大模型日报｜16 篇必读的大模型论文

AMiner2006的博客

10-09

2447

大模型日报｜16 篇必读的大模型论文

差分革命：清华微软携手，用物理智慧重塑Transformer“慧眼”

2401_85280582的博客

10-10

787

不同于传统Transformer，DIFF Transformer在softmax过程中引入了差分算子，通过计算两个softmax函数间的差异，有效降低了不相关信息的干扰，提升了信噪比。面对这一困境，DIFF Transformer应运而生，它携带着“差分注意力”机制，如同一台精密的差分放大器，消除注意力噪声，让模型更加聚焦于上下文中的关键信息。未来，随着更多跨学科研究的深入，AI将拥有更加敏锐的“慧眼”，在信息的海洋中，想象一下，在信息的汪洋大海中，寻找一根至关重要的“针”，难度无异于“大海捞针”。

CVPR2020 Person Re-identification论文合集

weixin_43994864的博客

06-12

1675

在接收的1400多篇论文中，我整理出24篇person reid方向论文，并附带论文下载链接，已经公布代码的论文链接也展示出来，还有没有公布代码的，后期陆续补充。 AD-Cluster - Augmented Discriminative Clustering for Domain Adaptive Person Re-Identification Camera On-Boarding for Person Re-Identification Using Hypothesis Transfer Learn

pde transformer

04-02

### PDE Transformer 的背景与实现 PDE Transformer 是一种基于变压器架构的方法，旨在解决偏微分方程 (Partial Differential Equation, PDE) 中的复杂模式识别和预测问题。这种方法通过结合注意力机制和数值计算技术来提高求解效率和精度。 #### 背景介绍 Transformer 架构最初被设计用于自然语言处理任务，在序列建模方面表现出卓越性能。近年来，研究者将其扩展到科学计算领域，特别是针对 PDE 的求解[^1]。PDE Transformer 利用了自注意力机制的强大能力，能够捕捉全局依赖关系并有效表示复杂的物理现象。 #### 实现方法概述以下是 PDE Transformer 的主要组成部分及其功能： 1. **输入编码** 输入数据通常由网格化空间域上的离散点组成，这些点可以代表时间步长或空间位置。为了使模型更好地理解输入结构，常采用嵌入层将原始坐标映射至高维特征向量。 2. **多头注意力模块** 多头注意力允许网络关注不同区域之间的相互作用，这对于模拟扩散过程或其他动态行为至关重要。具体而言，查询(Query)、键(Key) 和值(Value) 向量经过线性变换后参与加权平均操作，从而生成新的上下文感知表征。 3. **前馈神经网络(FFN)** 在每个子层之后连接 FFNs 提供额外非线性转换机会，进一步增强表达力。标准做法是在两层全连接层之间加入 ReLU 激活函数。 4. **规范化与残差连接** 层归一化(Layer Normalization)有助于稳定训练过程；而跳跃链接(Skip Connection)则促进梯度流动，缓解深层网络可能遇到的退化难题。 5. **输出解码** 经过若干次迭代更新后的隐状态最终会被投影回目标维度，形成期望的结果形式——可能是未来时刻的状态分布或者边界条件下的响应曲线等。下面给出一段简化版 Python 伪代码展示如何构建这样一个框架: ```python import torch.nn as nn class PDENet(nn.Module): def __init__(self, d_model=512, nhead=8, num_layers=6): super(PDENet, self).__init__() encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead) self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers) def forward(self, src): output = self.transformer_encoder(src) return output ``` 此片段仅作为概念验证工具，并未考虑实际应用中的诸多细节调整需求。