一、文章主要内容总结
1. 研究背景与问题
- 技术瓶颈:扩散模型虽在图像和视频生成领域实现突破(如Sora、Hunyuan-DiT等),但依赖Transformer架构导致计算成本极高,多数模型仅能生成5-10秒的短视频;现有自回归长视频生成方法(如CausVid、Self-Forcing)存在“训练-推理不匹配”问题——训练时依赖短视距双向教师模型(5秒内),推理时需生成更长视频,导致误差累积、画面过曝或质量骤降。
- 关键挑战:一是“时间 mismatch”,训练仅覆盖5秒短片段,推理需生成超10秒长视频;二是“监督 mismatch”,训练中教师模型为每帧提供密集监督,学生模型未接触长序列中的误差累积,无法应对长视频生成中的画面停滞、静态崩塌等问题。
2. 核心方法(Self-Forcing++)
- 反向噪声初始化(Backwards Noise Initialization):将学生模型生成的长序列(N≫5秒)重新注入噪声,确保噪声与已生成帧的时间依赖性一致,解决长序列生成中的上下文错位问题。
- 扩展分布匹配蒸馏(Extended Distribution Matching Distillation):利用教师模型隐含的“世界数据分布”知识,从学生生成的长序列中随机采样5秒窗口,最小化学生与教师在该窗口内的分布差异,无需长视频教师监督即可扩展生成视距。

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



