关键字:NeurIPS 2025、Spotlight!伯克利、MIT、韩松团队、视频生成、稀疏注意力框架SVG2、token
一、导读

本文聚焦于扩散变换器(Diffusion Transformers, DiTs)在视频生成任务中因自注意力机制二次计算复杂度所导致的高延迟问题。尽管已有研究通过稀疏注意力机制仅计算关键 token 以降低计算成本,但现有方法在生成质量与计算效率的权衡中仍远未达到理论上限。
论文指出当前方法存在两个根本问题:一是基于位置而非语义的 token 聚类导致关键 token 识别不准确;二是关键 token 分散存储导致硬件计算效率低下。为此,本文提出了一种无需训练的稀疏注意力框架 SVG2,通过语义感知的排列(semantic-aware permutation)实现 token 的语义聚类与重排,显著提高了识别精度与计算密度,在多个视频生成基准上实现了质量-效率的 Pareto 前沿优化。
二、论文基本信息

-
论文标题

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



