论文链接:https://arxiv.org/pdf/2502.05179
项目链接:https://github.com/FoundationVision/FlashVideo
亮点直击
提出了 FlashVideo,一种将视频生成解耦为两个目标的方法:提示匹配度和视觉质量。通过在两个阶段分别调整模型规模、分辨率和优化策略,本文的方法相比现有方法实现了更高的效果和效率。
通过流匹配(flow matching)构造了从低质量视频到高质量视频的近乎直线的 ODE 轨迹,使得视频在仅 4 次函数评估内即可融入丰富细节。
本文的方法在 VBench-Long 上达到了 82.99 的顶级分数,同时实现了极快的函数评估时间。两阶段设计使用户能够在全分辨率生成前预览初始输出,从而降低计算成本和等待时间。
总结速览
解决的问题
-
现有 DiT 生成的视频模型需要大规模参数和大量计算资源,导致计算成本高昂。
-
生成高质量视频需要高分辨率和大量去噪步骤,进一步增加计算负担。
-
现有的两阶段方法仍然依赖从高斯噪声重建高分辨率视频,计算效率低下。
提出的方案
- 设计 FlashVideo 两阶段框架:
-
第一阶段 低分辨率视频生成,保证内容和运动的语义一致性。
-
第二阶段 通过流匹配(flow matching)提升分辨率,增强细节,同时减少计算开销。
-
-
采用流匹配技术,直接优化 ODE 轨迹,使第二阶段生成不依赖高斯噪声。
应用的技术
-
DiT(Diffusion Transformer)架构,利用 3D 全注意力机制建模时间和空间关系。
-
流匹配(flow matching),直接优化低分辨率到高分辨率的 ODE 轨迹,避免从高斯噪声重建。
-
计算优化,第一阶段使用 5B 参数模型,第二阶段降至 2B 参数,并减少函数评估步骤至 4 步。
达到的效果
-
大幅提升计算效率:1080p 视频生成时间从单阶段 2150s 降至 102s,比传统两阶段方法快 5 倍。
-
保障生成质量:低分辨率阶段保证语义一致性,高分辨率阶段增强细节,确保视觉质量。
-
更高的商业可行性:允许用户在低分辨率阶段预览结果,减少不必要的计算成本。
方法
总览
在 FlashVideo 框架中,视频像素 首先通过 3D 因果 VAE 压缩为隐空间特征 ,其中 ,,。该模型旨在生成 6 秒长的视频(每秒 8 帧,因此 ),分辨率为 1080p。
如下图 2 所示,采用了一个两阶段的、从低到高分辨率的视频生成流程,其中每个阶段都通过定制的模型规模和训练策略进行优化,以确保计算效率。以下小节将详细描述每个阶段的过程。
低分辨率阶段 I
在第一阶段,目标是生成与输入提示高度匹配的内容和运动模式。为此,初始化了一个大规模模型 CogVideoX-5B,其包含 50 亿 参数。为了提高计算效率,采用 参数高效微调(PEFT),使模型适应 270p 的低分辨率。
调整 MMDiT 架构的目标分辨率相对简单,可通过在所有 注意力层、前馈网络(FFN) 以及 自适应层归一化(adaptive layer normalization) 中应用 LoRA(秩设为 128)来实现。
与全参数微调相比,PEFT 在小批量(batch size = 32)训练时表现出更强的鲁棒性,而全参数微调在如此小的批量下会显著降低生成质量。所有其他配置设置(包括去噪调度器和预测目标)均与 CogVideoX-5B 保持一致。
高分辨率阶段 II
模型架构
为了增强细粒度细节,本文采用了另一种遵循 CogVideoX-2B设计的模型。用 3D RoPE 替换了原始位置频率嵌入,以在推理时更好地扩展至更高分辨率(见下图 8)。
与 [He et al. 2024] 采用的 时空分解(spatial-temporal decomposition) 和 时间切片注意力(time-slicing attention) 方法不同,完整的 3D 注意力机制 对于保持视频在剧烈运动和尺度变化情况下的增强视觉细节一致性至关重要(见下图 7)。如上图 2所示,第一阶段的语言嵌入被直接用于该阶段。
低成本分辨率传输
在高分辨率阶段直接应用传统的扩散过程(从高斯噪声开始,并以低分辨率视频为条件)需要大量计算资源。为了提高效率并保持高质量的细节生成,采用 流匹配(flow matching) 方法,将 **低分辨率隐空间表示 映射到高分辨率隐空间表示 **。
中间点通过 和 之间的线性插值计算,如算法 1所述。这种方法在初始化阶段 消除了冗余的采样步骤,同时避免了对额外控制参数的依赖提出的参数)。此外, 作为 无关的目标,使得 ODE 轨迹更加笔直,从而实现少步生成。<