本文来源公众号“AI生成未来”,仅用于学术分享,侵权删,干货满满。
原文链接:从短片到长片的质变:Macro-from-Micro 攻克长视频生成三大难题 | 南大、TeleAI等

文章链接:https://arxiv.org/pdf/2508.03334
项目链接:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/
亮点直击
Macro-from-Micro,一种分层自回归规划方法,能够在整段视频的各片段间形成连贯的全局故事情节,同时大幅减少长视频生成中的时序误差累积。
基于MMPL的内容填充(MMPL-based Content Populating),在预规划关键帧的指导下并行合成多个片段的帧,打破传统自回归流程固有的顺序性瓶颈。
进一步设计了自适应多GPU负载调度策略,平衡设备间的片段生成任务,显著减少长视频合成的实际运行时间。




总结速览
解决的问题
-
长视频生成的时序漂移问题:传统自回归(AR)模型因误差累积导致长视频生成时出现时序不一致(temporal drift)。
-
并行化限制:现有AR方法需严格逐帧生成,无法并行化,计算效率低。
-
全局一致性不足:传统扩散模型需全局优化所有帧,计算开销大且难以保证长视频的跨片段连贯性。
提出的方案
-
分层规划框架(MMPL):
-
微观规划(Micro Planning):在短片段内预测稀疏关键帧,提供局部运动与外观先验。
-
宏观规划(Macro Planning):通过自回归链连接各片段的关键帧,确保全局叙事一致性。
-
-
并行化内容填充:基于规划的关键帧,并行生成片段内中间帧,打破逐帧依赖。
-
自适应负载调度:动态分配GPU资源,加速生成过程(速度提升至原时间的1/3)。
应用的技术
-
自回归与扩散混合:结合AR的时序性和扩散模型的高保真生成能力,避免离散化伪影。
-
分层关键帧预测:通过两级规划(微观+宏观)平衡局部细节与全局连贯性。
-
并行化生成:利用关键帧约束,实现跨片段并行填充中间帧。
达到的效果
-
质量与稳定性提升:在长视频生成中优于现有方法,减少时序漂移和误差累积。
-
高效并行化:通过自适应调度,显著加速生成(速度提升约3倍)。
-
应用兼容性:适用于电影制作、虚拟现实等需长时序一致性的场景。
长视频生成中的漂移分析



方法
微观到宏观规划
本文观察到自回归模型的误差累积与传播步数成正比,而非自回归模型通过联合优化将误差与步数解耦。为了结合两种范式的互补优势,提出了微观到宏观规划(MMPL),这是一种包含两个关键组件的统一规划方法:微观规划和宏观规划。
微观规划。如下图3所示,微观规划M通过预测一小部分关键帧(作为后续内容合成的稳定锚点)为每个包含N帧的片段构建短时故事情节。


当通过自回归链连接微观规划时,直接重用前一片段的尾部潜在标记作为下一片段的前缀通常会导致边界闪烁和跨片段过渡的色彩偏移。该问题源于分布不匹配:首帧潜在标记本质上与其他帧不同——它仅代表初始图像,而后续帧包含时间压缩信息,导致帧间统计特性不一致。
受[CausVid Yin et al. 2025]启发,本文引入抗漂移的重新编码-解码策略来稳定片段间过渡。如下图4所示,首先将前一片段的初始潜在标记与其终止规划标记拼接,并将序列输入VAE解码器进行视频重建。但由于VAE解码要求每个标记必须以严格连续的时间前缀为条件,输入序列中的任何时间不连续性都会导致明显的色彩偏移和边界伪影。为缓解该问题,我们将终止规划标记复制一次,并将副本插入初始潜在标记与原终止规划标记之间,形成时间连续的潜在序列以供解码。重建后,我们重新编码终止规划标记的第二个副本,并将生成的潜在标记作为下一片段微观规划的初始标记。该设计在潜在空间强制实现统计和时间一致性,有效抑制色彩偏移和边界闪烁,实现平滑稳定的片段间过渡。

基于MMPL的内容填充



自适应负载调度
不同片段的内容填充可在多GPU上并行执行。但该方法存在一个关键限制:必须等待所有片段的规划帧完全生成后才能开始并行化,这会引入不可避免的前缀延迟,降低整体流水线吞吐量。为进一步提升生成效率,我们提出自适应负载调度策略,动态调整微观规划、宏观规划和内容填充的执行顺序以最大化并行性。具体而言,宏观规划被构建为片段级微观规划的自回归链,这自然强制了跨片段规划帧的严格生成顺序。该特性允许在早期片段的规划帧就绪后立即启动其内容填充,而无需等待所有后续片段的规划帧完成。


实验
基线模型。将本模型与规模可比的开源视频生成系统进行对比,包括FIFO、SkyReelsV2、MAGI、CausVid和Self-Forcing。所有方法均在统一的滑动窗口协议下评估,其中每个固定长度片段(如5秒)因果依赖于前一片段的末尾帧。采用SkyReels-V2-14B和MAGI-4.5B作为主要基线,CausVid和Self-Forcing(1.3B,从14B教师模型蒸馏)作为高保真自回归代表。
训练细节。在Wan2.1-T2V-14B(基于双向DiT的流匹配模型,原设计用于5秒视频生成)上实现MMPL。为实现高效长时建模,训练时采用FlexAttention实现可扩展注意力,推理时使用FlashAttention-v3加速采样。模型在50,000条人工筛选的832×480分辨率高质量视频上微调,提供多样且干净的训练数据以支持稳定优化和长时生成。使用AdamW优化器在32块H100 GPU上训练8,000次,学习率为。分层规划中设置、和,分别对应指导片段生成的早期、中点和晚期规划帧。
评估。在VBench-long基准上评估,该基准测量主体一致性、背景一致性、运动平滑度、美学质量和成像质量,综合捕捉时间稳定性和感知保真度。主要研究中,在单块H100 GPU上为120个随机采样的MovieGen提示生成30秒视频。另进行用户研究补充定量指标:为每个基线使用前19个MovieGen提示生成约30秒的19段视频,29名独立参与者进行成对比较,选择在视觉质量和语义保真度上更符合输入提示的视频。这种主客观结合评估提供了数值性能和感知质量的严格检验。用户研究细节见补充材料。
定量结果。如下表1所示,Macro-from-Micro方法在VBench上取得最佳综合性能:主体一致性0.980、运动平滑度0.992和美学质量0.628领先,成像质量0.661保持竞争力,仅背景一致性0.968略低于CausVid和MAGI-1。但VBench指标(尤其是主体/背景一致性)倾向于静态场景,无法完全反映长视频生成的感知复杂度。为此,通过人类研究生成每方法19段30秒多样化视频(涵盖人物、车辆和自然景观),30名参与者从文本-视觉对齐、内容一致性和长序列色彩稳定性三方面评分。本方法在三项中均获最高分:文本-视觉对齐80.0、内容一致性79.2、色彩稳定性83.1,显著优于其他基线。

如下图1所示,人类评估中本方法持续受偏爱,证实其感知优势。

定性结果。如下图7所示,AR基线因长视频生成中的误差累积表现出严重时序漂移。在30秒序列中,这些模型逐渐丧失视觉保真度,模糊、褪色和明显色移等伪影加剧。动态场景中退化更甚,运动不连续和几何畸变进一步破坏时间连贯性。相比之下,本文的方法在整个序列中保持高质量,对运动漂移和色彩失真具有强鲁棒性,持续超越CausVid和Self-Forcing,在挑战性长时条件下性能优于SkyReels-V2和MAGI-1,凸显其稳定高保真长视频合成的有效性。

并行推理效率。为突出Macro-from-Micro规划的实际优势,本文比较其标准推理与并行化变体。并行策略在不损失生成质量下实现显著加速。如上图1所示,本方法将60秒视频生成时间大幅缩短,展现强扩展性和实时部署适用性。仅用2块GPU即可减半推理时间,借助流水线设计,4块GPU进一步将生成时间降至原时间的约三分之一。这些结果证实本方法有效平衡吞吐量与质量,其硬件效率使其高度适合大规模视频合成应用。
消融研究。在长视频生成中,微观规划阶段规划帧的放置位置对MMPL整体性能至关重要,因其直接影响时序平滑度和结构一致性。为验证该假设,进行三种微观规划变体的消融实验:(i) 无早期帧规划(省略初始时间步附近的帧);(ii) 无中点帧规划(移除中心锚点帧);(iii) 完整MMPL策略(保留所有规划帧)。如下表2所示,完整MMPL配置在所有指标上均优于其他变体。此外,如下图8定性对比显示,完整MMPL策略不仅产生更平滑的时序过渡和更稳定的长时内容,而其他变体因缺失特定规划帧,在对应位置易出现不连续过渡或明显跳帧。


讨论
与加速和蒸馏方法的兼容性。本范式天然兼容DMD等加速技术和蒸馏方法,无需修改原架构。训练时仅需调整注意力掩码控制可见帧范围,推理时通过重组视频片段解码顺序实现高效生成。这种兼容性使Macro-from-Micro能无缝集成现有加速流程。未来结合模型蒸馏等策略可进一步提升推理效率而不损失生成质量。
与自校正方法的兼容性。Macro-from-Micro与Self Forcing等逐步自回归误差校正策略互补。训练时模型通常基于真实视频帧去噪预测下一帧,若将真实帧替换为先前预测帧,可自然过渡至Self-Macro-from-Micro模式。该混合策略能进一步延长可生成视频时长,并显著提升长序列的时间一致性。
局限性与未来方向。尽管Macro-from-Micro大幅缓解预测误差累积,超长视频生成中仍可能出现轻微质量下降。由于片段内内容帧通过规划帧插值生成,边界附近运动连续性可能减弱。未来工作将探索更有效的外推策略,并引入受世界模型启发的记忆增强模块(包含存储、检索和读取机制),以进一步提升长视频生成的时间一致性和整体合成质量。
参考文献
[1] Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。


被折叠的 条评论
为什么被折叠?



