TiDAR：NVIDIA给LLM装上两个“引擎”！一文解析“Think in Diffusion, Talk in Autoregression”的底层魔法。

最新推荐文章于 2025-12-05 22:05:00 发布

原创最新推荐文章于 2025-12-05 22:05:00 发布 · 693 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #人工智能 #机器学习 #深度学习 #java

部署运行你感兴趣的模型镜像

大家好！今天想和大家聊一篇来自NVIDIA的很有意思的新工作，它叫 TiDAR。这个名字很形象，是“Think in Diffusion, Talk in AutoRegression”的缩写，意思是“用扩散模型来思考，用自回归模型来表达”。这篇论文旨在解决一个困扰大型语言模型（LLM）已久的难题：如何在保证生成质量的同时，大幅提升推理速度。

论文标题: TiDAR: Think in Diffusion, Talk in Autoregression
作者: Jingyu Liu, Xin Dong, Zhifan Ye, Rishabh Mehta, Yonggan Fu, Vartika Singh, Jan Kautz, Ce Zhang, Pavlo Molchanov等
作者机构: NVIDIA, 芝加哥大学, 佐治亚理工学院
论文地址: https://arxiv.org/pdf/2511.08923

目前，LLM的生成范式主要分为两派。一派是大家熟悉的自回归（Autoregressive, AR）模型，比如GPT系列。它们像我们说话一样，一个字一个字地往外蹦，逻辑严谨，质量很高，但缺点就是慢，因为每生成一个token都需要进行一次完整的模型前向计算，这在硬件上是典型的“内存受限”操作，GPU的大部分计算单元都在“摸鱼”。

另一派则是非自回归或并行解码模型，比如扩散语言模型（diffusion language models）。它们可以一次性生成多个token，速度潜力巨大，能更好地利用GPU的计算密度。但天下没有免费的午餐，并行生成牺牲了token之间的依赖关系，导致生成质量通常不如AR模型。

那么，有没有办法能让模型既“想”得快，又“说”得好呢？这就是TiDAR要解决的问题。它巧妙地将两种范式融合在了一个模型里，实现了速度与质量的兼得。论文数据显示，TiDAR能在几乎不损失质量的情况下，带来高达 4.71倍到5.91倍 的token生成速度提升，并且是首个在质量上追平AR模型的并行解码架构。

一、TiDAR是如何工作的？

TiDAR的核心思想非常精妙：在一个模型、一次前向传播（forward pass）中，同时完成两件事——用扩散模式“思考”草稿，用自回归模式“确认”输出。

这听起来有点不可思议，但通过精心设计的注意力机制，TiDAR做到了。研究者们设计了一种特殊的结构化注意力掩码（structured attention masks），使得模型在处理序列时，不同部分能采用不同的注意力模式。

具体来说，在每一步生成中，输入序列被分为三部分：

前缀（Prefix）: 已经确认的上下文部分。
草稿（Drafts）: 上一步生成的、待验证的候选tokens。
预草稿（Pre-drafts）: 为下一步并行生成的新候选tokens。

模型在一次前向计算中：

自回归地“说” (Talk in Autoregression): 对于上一轮生成的“草稿”tokens，模型会以标准的因果注意力（causal attention）来计算它们作为正式输出的概率，然后通过拒绝采样（rejection sampling）来决定接受哪些tokens。这个过程保证了最终输出的质量，因为它遵循了AR模型的严谨逻辑。
扩散式地“想” (Think in Diffusion): 与此同时，对于需要为下一轮准备的“预草稿”部分，模型采用块状双向注意力（block-wise bidirectional attention），并行地预测出多个候选tokens。这个过程就像扩散模型一样，一次性生成一个“想法”的雏形，效率极高。

这种设计的巧妙之处在于，它充分利用了现代GPU在处理少量token时存在的“免费计算区间”（free token slots）。如下图所示，当序列长度在一定范围内增加时，推理延迟几乎不变。TiDAR正是将并行思考（草稿生成）和串行表达（验证）打包在这一次计算中，把这部分“免费”的算力给用上了。

二、实验效果如何？

TiDAR的实验结果相当亮眼，可以说是实现了对现有并行解码方法（如普通扩散模型、推测解码）的超越。

1.效率与质量的权衡

研究者在1.5B和8B规模的模型上进行了广泛测试。如下图所示，横轴是相对AR模型的吞吐率（速度提升倍数），纵轴是各项任务的得分（质量）。

可以看到，TiDAR（图中星形和圆形标记）在各个模型尺寸下，都达到了一个非常优秀的“帕累托前沿”——即在相似的质量水平下，它的速度最快；在相似的速度水平下，它的质量最高。

对于1.5B模型，TiDAR实现了 4.71倍 的吞吐量提升，同时在各项任务上与基线AR模型质量持平甚至略有超出。
对于8B模型，更是达到了 5.91倍 的惊人加速，而质量损失极小。

值得一提的是，TiDAR甚至超越了当前先进的推测解码方法（如EAGLE-3）。虽然推测解码能保证输出与原模型完全一致，但TiDAR凭借其更高的“单次有效token产出率”（T/NFE）和全并行设计，在实际吞吐量上更胜一筹。

2.生成任务表现

在代码生成（HumanEval, MBPP）和数学推理（GSM8K, Minerva Math）等生成任务上，TiDAR的表现同样出色。如下表所示，TiDAR 1.5B的性能全面看齐甚至超越了Qwen2.5 1.5B AR模型。而TiDAR 8B也与Qwen3 8B AR模型性能相当，远超同等规模的其他扩散模型（如LLaDA, Dream）。