——基于文献《Video diffusion generation: comprehensive review and open problems》的深入解读
说明:本文基于 Ma 等人在 Artificial Intelligence Review 上发表的综述论文《Video diffusion generation: comprehensive review and open problems》撰写,对其中的理论与方法进行尽量系统、成体系的提炼与再组织,适合作为入门与进阶读者的“二次教材”。
1 研究背景与论文整体脉络
在 AIGC 爆发的这几年里,图像扩散模型已经从“有潜力的新模型”变成了现实工业系统的主角;与之相比,视频扩散模型则同时面对更高的维度、更复杂的时序约束与更严苛的算力瓶颈。Ma 等人的这篇综述正是在这样的背景下提出:一方面,现有扩散综述大多停留在图像或“宽泛的视频生成”层面,缺少对扩散范式下视频生成的系统拆解;另一方面,各种 text-to-video、image-to-video、可控视频生成工作百花齐放,却缺乏统一的分类、对比与问题提炼。
论文从理论到实践大致构建了这样一条逻辑链条:首先回顾扩散模型本身的发展脉络——从 DDPM、Score-based、DDIM 到 LDM ——再讨论这些模型如何被扩展到视频领域;接着以一个统一的分类体系,将两百余篇视频扩散工作按“任务类型”“控制方式”“复杂度”等维度进行归类;随后整理数据集、评价指标与代表性模型的实验结果;最后在此基础上凝练出一系列开放问题。
如果把整篇论文类比成“视频扩散模型的地形图”,那么本文希望做
视频扩散模型理论全景

订阅专栏 解锁全文
869

被折叠的 条评论
为什么被折叠?



