Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

一、文章主要内容总结

1. 研究背景与问题

  • 技术瓶颈:扩散模型虽在图像和视频生成领域实现突破(如Sora、Hunyuan-DiT等),但依赖Transformer架构导致计算成本极高,多数模型仅能生成5-10秒的短视频;现有自回归长视频生成方法(如CausVid、Self-Forcing)存在“训练-推理不匹配”问题——训练时依赖短视距双向教师模型(5秒内),推理时需生成更长视频,导致误差累积、画面过曝或质量骤降。
  • 关键挑战:一是“时间 mismatch”,训练仅覆盖5秒短片段,推理需生成超10秒长视频;二是“监督 mismatch”,训练中教师模型为每帧提供密集监督,学生模型未接触长序列中的误差累积,无法应对长视频生成中的画面停滞、静态崩塌等问题。

2. 核心方法(Self-Forcing++)

  • 反向噪声初始化(Backwards Noise Initialization):将学生模型生成的长序列(N≫5秒)重新注入噪声,确保噪声与已生成帧的时间依赖性一致,解决长序列生成中的上下文错位问题。
  • 扩展分布匹配蒸馏(Extended Distribution Matching Distillation):利用教师模型隐含的“世界数据分布”知识,从学生生成的长序列中随机采样5秒窗口,最小化学生与教师在该窗口内的分布差异,无需长视频教师监督即可扩展生成视距。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值