NeurIPS 2025 Spotlight!伯克利、MIT联合提出SVG2:语义感知稀疏注意力,加速视频生成2.3倍

关键字:NeurIPS 2025、Spotlight!伯克利、MIT、韩松团队、视频生成、稀疏注意力框架SVG2、token

👉👉👉原、文、40篇精选顶会论文

一、导读

本文聚焦于扩散变换器(Diffusion Transformers, DiTs)在视频生成任务中因自注意力机制二次计算复杂度所导致的高延迟问题。尽管已有研究通过稀疏注意力机制仅计算关键 token 以降低计算成本,但现有方法在生成质量与计算效率的权衡中仍远未达到理论上限。

论文指出当前方法存在两个根本问题:一是基于位置而非语义的 token 聚类导致关键 token 识别不准确;二是关键 token 分散存储导致硬件计算效率低下。为此,本文提出了一种无需训练的稀疏注意力框架 SVG2,通过语义感知的排列(semantic-aware permutation)实现 token 的语义聚类与重排,显著提高了识别精度与计算密度,在多个视频生成基准上实现了质量-效率的 Pareto 前沿优化。

二、论文基本信息

  • 论文标题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值