在NeurIPS'2025上,斯坦福与MIT联合团队提出的因果扩散Transformer(CDiT),成功解决了多模态对齐中的时序一致性问题,为视频生成与跨模态推理建立了新基准。
从架构演进看,Transformer凭借自注意力机制擅长建模跨模态语义关联,扩散模型通过渐进去噪过程生成高保真连续数据。然而,传统融合方案面临根本性挑战——Transformer对离散token的依赖造成视觉细节损失,扩散模型缺乏对复杂语义的逻辑推理能力。CDiT通过因果扩散注意力机制与时变语义注入,在视频生成任务中不仅将时序一致性误差降低47%,更实现了文本-视频的精准语义对齐,为多模态大模型提供了可解释、可控的生成路径。
专注这个领域的研究者,可以重点关注因果建模在医疗影像序列分析、机器人任务规划中的创新应用,这些方向兼具理论深度与产业价值。
部分扩散模型+Transformer 论文如下:
Dynamic Diffusion Transformer

中文标题: 动态扩散Transformer
主要内容: 本文旨在解决现有扩散Transformer(DiT)模型在图像生成过程中计算负载固定不变的问题。传统DiT对所有图像区域均采用相同的计算强度,忽略了图像内容本身存在复杂度差异(如平滑天空与细节丰富的人脸)。该论文提出了一种动态推理框架,通过在模型前向过程中实时分析输入条件和中间特征,自适应地分配计算资源。具体而言,模型会逐步对简单的图像区域进行降采样以减少处理令牌(Token)数量,同时对复杂区域保留高分辨率进行精细生成,从而在基本不损失甚至提升图像质量的前提下,显著提高模型的推理效率。
创新点:
-
动态令牌调度机制: 引入一种基于内容感知的自适应调度器,它能够在扩散过程的每一步,根据特征图的复杂性动态地减少简单区域的令牌数量,实现对计算资源的“按需分配”。
-
多尺度U型动态架构: 设计了一个支持令牌数量在推理过程中动态变化的U型网络架构,该结构允许特征图分辨率在层与层之间灵活变化,确保了在高效计算的同时,模型仍能保留对生成高质量图像至关重要的空间和语义信息。
Estimating Probability Densities with Transformer and Denoising Diffusion

中文标题: 基于Transformer与去噪扩散的概率密度估计
主要内容: 本文提出了一种名为DPT的新方法,将去噪扩散模型与Transformer架构相结合,以解决传统参数化和非参数化方法在复杂概率密度估计任务中的局限性。该方法遵循扩散模型的基本框架:通过一个预设的前向过程将数据样本逐步扰动为噪声,然后核心是训练一个基于Transformer的网络来学习复杂的反向去噪过程。这个网络能够从噪声中重建出原始数据的分布,并直接输出精确的数据对数概率密度值。实验表明,DPT在多个标准密度估计基准数据集上实现了最先进的性能。
创新点:
-
密度估计的新范式: 首次将去噪扩散概率模型(DDPM)的系统性框架成功应用于直接的概率密度函数估计任务,为这个经典问题提供了一个全新的、强大的生成式建模解决方案。
-
Transformer驱动的去噪网络: 利用Transformer作为扩散模型反向过程的核心骨干网络,其强大的序列建模和全局依赖捕获能力,使其能够精确学习从噪声到数据分布的复杂映射,从而实现高精度的密度估计。
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

中文标题: JavisDiT:具有分层时空先验同步的联合音视频扩散Transformer
主要内容: 该论文专注于高质量且音视频同步的视频生成任务。现有的方法在保持音频和视频轨迹之间精确的时间对齐方面常常存在困难。为了解决这一问题,JavisDiT提出了一个统一的扩散Transformer框架,能够并行地联合生成音频和视频。其核心是引入了分层时空先验同步机制,通过在扩散过程中在不同层次(全局场景语义和局部运动节奏)上强制进行音视频模态间的交互与对齐,确保生成的视频画面与声音在时间和内容上高度一致。
创新点:
-
联合音视频并行生成: 采用单一的扩散Transformer模型同时处理和生成音频和视频信号,而不是采用分离或串行的生成流程,实现了高效的跨模态生成。
-
分层时空先验同步: 设计了新颖的分层同步模块,该模块在全局和局部两个层面运作。全局层面捕捉场景级的语义对应关系,局部层面则专注于精细的时间点对齐,确保每一个视觉动作都与对应的声音精准匹配。
EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching

中文标题: EDT:一种受人类素描启发的高效扩散Transformer框架

主要内容: 本文受人类画家作画过程的启发(先勾勒轮廓草图,再逐步添加细节),提出了一种高效的扩散Transformer框架。EDT将图像生成解耦为两个阶段:首先,一个轻量级的“草图”Transformer快速生成一张低分辨率、包含基本结构和全局布局的草图;然后,一个“精炼”Transformer根据此草图进行上采样和细节增强,生成最终的高分辨率图像。这种分阶段、由粗到细的策略避免了传统单一模型直接处理高分辨率数据所带来的巨大计算开销。
创新点:
-
由粗到细的两阶段生成范式: 模仿人类绘画思维,将生成过程明确分解为“草图绘制”和“细节精炼”两个阶段,显著降低了直接建模高维数据的复杂度。
-
任务解耦与效率优化: 两个阶段的Transformer各司其职,草图模型专注于快速捕获全局结构,精炼模型则专注于局部细节增强。这种设计使得模型在训练和推理时都更加高效,能够在保持高图像质量的同时,大幅减少计算成本和生成时间。
原文、这里 👉👉NeurIPS'2025高分入选!扩散模型+Transformer,效率与质量双线飙升!https://mp.weixin.qq.com/s/akS8COXRHS1aezx4Y1dHqQ
▍往期推荐
杀疯了!2025 最新Agent Memory顶会论文,拿捏发文密码!
ICCV 2025|FrDiff:频域魔法+扩散模型暴力去雾,无监督性能刷爆榜单!
NeurIPS 2025 | 港科大&上交大HoloV:多模态大模型“瘦身”新突破,剪枝88.9%视觉Token,性能几乎无损

4804

被折叠的 条评论
为什么被折叠?



