作者 | hzwer 黄哲威 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1918322086205718663
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
本来是去年想投个IJCAI survey track练手的,一开始只写了七页,结果出了一些事故desk reject
后来修修改改投期刊,补到二十多页,终于可以发表了
现在在做 camera ready 版本,如果大家有 insight 或者文献补充欢迎留言
希望能比 deep research 自动生成的水平高一些
论文链接:https://arxiv.org/abs/2401.14718
摘要:未来帧合成(Future Frame Synthesis, FFS)的目标是基于现有内容生成未来的帧序列,强调合成方面,扩展了视频帧预测的范围。本综述全面回顾了FFS领域的现有研究,涵盖了常用的基准数据集和代表性算法。我们讨论了该领域的关键挑战,并追溯了FFS在计算机视觉中的演变,特别是从确定性方法向生成性方法的转变。我们的分类法概述了主要进展和方法论转变,强调了生成模型在产生逼真和多样化预测中的重要性日益增加。本综述不仅提供了对当前研究的全面分析,还提出了在这一不断发展的领域中未来探索的有希望的方向。
1. 介绍
未来帧合成(Future Frame Synthesis, FFS)的任务目标是从一系列历史帧(Srivastava et al., 2015)中生成未来的帧,或者甚至从单个上下文帧(Xue et al., 2016)中生成,可选择通过补充控制信号进行引导。FFS的学习目标也被视为构建世界模型(Ha & Schmidhuber, 2018a; Hafner et al., 2023)的核心。FFS与低级计算机视觉技术密切相关,尤其是在合成时间上相邻的帧时(Liu et al., 2017; Wu et al., 2022b; Hu et al., 2023b)。然而,FFS与其他低级任务的区别在于,它隐含地要求对场景动态和时间连贯性有更复杂、更高级的理解——这些特质通常与高级视觉任务相关。关键挑战在于设计能够高效实现这种平衡的模型,使用适中的参数数量以减少推理延迟和资源消耗,从而使FFS能够适用于实际部署。
早期的FFS方法主要遵循两种设计方法,这些算法通常被称为视频预测方法。第一种方法涉及从现有帧中引用像素——通常是最后观察到的帧——以合成未来内容。然而,这些方法本质上难以建模对象的出现和消失。这些方法倾向于产生准确的短期预测,但随着时间范围的延长,性能会逐渐下降。第二种方法侧重于从零开始生成未来帧。尽管这些方法有可能建模对象的出现和消失,但它们主要在像素级别上运行。因此,它们通常无法捕捉到对真实感和创造性生成至关重要的高级语义上下文。
在我们的工作之前,2020年发布的两项综述(Oprea et al., 2020; Rasouli, 2020)提供了对视频预测早期技术发展的全面概述。最近,也出现了一些关于文本到视频生成模型(Liu et al., 2024b)和长视频生成(Li et al., 2024; Sun et al., 2024b)的综述。与之相比,我们的综述强调了最近的进展,并探讨了预测方法与生成方法之间的相互作用。我们认为,长期FFS的未来在于预测技术和生成技术的协同整合。这种统一的方法将上下文约束与语义理解相结合,能够实现更稳健、更连贯的合成。
FFS领域正在迅速从传统的确定性预测转向大规模生成方法,随着最新的视频生成模型不断涌现,这些模型在参数规模、生成长度、控制能力和训练策略等方面取得了重要进展,注入了新的活力。作为基础,我们在第2节介绍了问题的定义和核心挑战。我们的分类法围绕建模方法的随机性程度进行组织。在第3节中,我们介绍了旨在基于固定目标帧进行像素级拟合的确定性算法。然而,像素级指标往往会促使模型对多个可能的未来进行平均,通常导致模糊的预测。在第4节中,我们考察了能够实现随机运动预测的算法。这些方法包括将随机变量注入确定性模型的方法,以及基于显式概率建模的方法。这些方法能够从运动分布中进行采样,产生多样化且合理的预测,而不仅仅是目标帧。鉴于当前FFS算法在生成能力上的有限性,尤其是在涉及对象出现和消失的高分辨率视频方面,我们在第5节讨论了生成性FFS方法。这些方法优先考虑生成连贯的长期序列,而不是像素级的准确性。在第6节中,我们探讨了FFS在世界模型、自动驾驶、机器人技术、电影制作、气象学和异常检测等领域的广泛应用。这些用例展示了FFS在动态场景理解和交互中的作用。在第7节中,我们回顾了关于视频预测和基于扩散的视频生成的先前综述。我们还澄清了我们独特的关注点:对FFS的全面分析,从确定性范式到生成性范式,强调生成模型在产生真实和多样化未来预测中的日益增长的作用。
2. 未来帧合成
2.1 问题定义
未来帧合成(FFS)任务涉及基于先前观察到的视频内容预测未来帧。其主要目标是开发能够准确捕捉未来视觉动态的模型。形式上,该任务可以被表述为一个条件生成建模问题:给定观察到的帧 ,目标是生成未来帧 。这种关系可以表示为条件概率分布:

在公式(1)中,t1 表示初始时间步,t2 标记观察到的帧序列的结束时间,而 t3 表示 FFS 的最终时间步。关键挑战在于学习一个能够建模帧之间复杂时空依赖关系的映射函数。这里, 表示给定观察序列的未来帧的条件概率分布。
许多 FFS 算法结合了多模态数据 ,包括深度图、地标、边界框和分割图等,以增强场景理解。它们还可能包括人类控制信号 ,例如文本指令或基于草图的笔触,这些信号指导模型按照特定的预期轨迹生成未来序列:

在多模态预测方法中,例如最近的自回归预测方法(Bai et al., 2024; Peng et al., 2024; Ming et al., 2024),多模态信息也可能作为学习目标:

2.2 范式和架构
在 FFS 领域中,出现了三种范式——确定性、随机性和生成性,每种范式代表一种不同的建模方法。
确定性范式强调对固定目标帧进行像素级拟合,通常采用低级计算机视觉架构,如卷积神经网络(CNNs)(Krizhevsky et al., 2012)、递归神经网络(RNNs)(Rumelhart et al., 1985)、长短期记忆网络(LSTM)(Hochreiter & Schmidhuber, 1997)和 U-Net(Ronneberger et al., 2015)。最近,Transformer 架构逐渐挑战了传统 CNNs 和 RNNs 的主导地位。一个标志性的作品是视觉 Transformer(ViT)(Dosovitskiy et al., 2021),它将图像划分为固定大小的块,并将这些块作为序列输入到 Transformer 中进行处理。Swin Transformer(Liu et al., 2021)进一步引入了层次化的 Transformer 结构,通过局部窗口自注意力机制处理不同尺度的特征,并逐步扩展感受野。在低级视觉任务中,IPT(Chen et al., 2021)利用预训练的 Transformers 解决各种低级视觉任务。TimeSformer(Bertasius et al., 2021)和 ViViT(Arnab et al., 2021)等模型利用 Transformers 处理视频中的时空信息,将视频帧和时间步结合起来。
对于确定性模型,优化像素级指标(如峰值信噪比PSNR和结构相似性SSIM)(Wang et al., 2004)通常会导致模糊的输出,因为模型倾向于对多个可能的未来进行平均。与通常优化像素级指标的确定性模型不同,随机性范式通过引入随机变量或分布来引入预测过程中的随机性,以建模视频动态中的固有不确定性。这种方法旨在捕捉视频序列的变异性,通常会产生与真实值偏差较大的结果。概率模型,如变分自编码器(VAEs)(Kingma & Welling, 2014)和生成对抗网络(GANs)(Goodfellow et al., 2020),通常用于实现这一点。这种方法并不一定旨在生成全新的视频内容,而是捕捉未来结果的变异性。生成性范式则优先考虑合成连贯且合理的视频序列,而不是像素级的保真度。它利用先进的生成模型,如扩散模型和大型语言模型(LLMs),以产生多样化且富有想象力的未来帧,捕捉复杂的场景动态,包括对象的出现和消失。最近,扩散模型作为一种强大的生成范式出现,包括 FFS 在内的生成任务。这些模型,如 DDPM(Ho et al., 2020),通过逐步去噪随机噪声信号来学习生成数据。Video Diffusion(Ho et al., 2022)和 SVD(Blattmann et al., 2023a)等扩散模型展示了生成高质量、多样化且时间上连贯的视频序列的显著能力。通过利用逐步去噪过程,这些模型能够有效地捕捉复杂的场景动态,并生成即使在长期预测中也真实的未来帧。此外,流匹配模型(Lipman et al., 2022; Dao et al., 2023)和修正流(Liu et al., 2022)作为生成建模的替代方法,因其相比传统扩散模型的改进效率和可扩展性而受到关注。随着研究的发展,这些范式之间的界限不断模糊,越来越多的努力致力于整合它们的优势,构建更强大、更通用的 FFS 系统。
2.3 总体挑战和发展趋势
FFS 领域面临着一些长期的挑战,包括需要开发能够平衡低级像素保真度与高级场景理解的算法,缺乏可靠的感知和随机性评估指标,长期合成的困难,以及缺乏能够捕捉随机运动和对象出现与消失的高质量、高分辨率数据集。本节概述了这些关键挑战,并为后续讨论奠定了基础。
2.3.1 学习目标和评估指标
低级指标(如 PSNR 和 SSIM)仅评估预测的像素级准确性。为了优化这些指标,模型通常使用像素空间损失(如 l1 或 l2 进行训练。它们往往会导致模糊的预测,更接近真实值,而不是更清晰、更真实的生成结果,这种现象被称为感知-失真权衡(Blau & Michaeli, 2018)。因此,研究人员越来越多地探索替代评估指标,包括感知指标(例如 DeePSiM(Dosovitskiy & Brox, 2016)、LPIPS(Zhang et al., 2018))和随机性指标(例如 IS(Salimans et al., 2016)、FID(Heusel et al., 2017))。这些指标被认为更能与人类感知判断一致。然而,即使是经过人类标注的感知数据训练的分类器,与人类对图像质量的判断也显示出有限的一致性(Kumar et al., 2022)。
在视觉领域,模型通常根据生成输出的感知质量进行评估。然而,对于许多实际应用来说,感知质量可能不是最关键的。例如,Dreamer-V3(Hafner et al., 2023)和 VPT(Baker et al., 2022)成功地使用低分辨率帧序列构建了有效的世界模型。此外,大多数视觉表示学习方法都是使用相对低分辨率的图像开发的(Radford et al., 2021; He et al., 2022)。我们担心,过度追求视觉质量可能会使模型选择偏向于过拟合低级特征的架构。除了与人类感知判断一致外,评估指标还应该设计为评估模型捕捉场景动态和时间变化的能力。此外,我们还需要关注如何利用 FFS 模型的能力来协助我们完成更多任务(Agarwal et al., 2025)。
关于视频生成模型的质量评估,最近已经建立了一些更全面的评估系统。VBench(Huang et al., 2024)基准测试套件被提出以解决这些问题,通过为视频生成模型提供一个全面的评估框架。VBench 从感知质量、动态性、时间一致性、内容多样性和提示对齐等多个方面对视频生成模型进行全面评估。FVMD(Liu et al., 2024a)设计了基于关键点跟踪的明确运动特征,专注于评估视频生成中的运动一致性。VBench-2.0(Zheng et al., 2025)进一步关注生成模型的内在真实性,例如它们是否遵循现实世界的原理,包括物理定律和常识推理。近期的一些工作更多地用到多 multi-modal LLM 对生成结果进行评估,比如 ViStoryBench(Zhuang et al., 2025) 利用 GPT-4o 从多方面评估生成模型的指令遵循能力 随着人们对生成真实性的追求不断增加,对真实物理交互和真实场景模拟的评估将成为一个有希望的研究课题。此外,对于 FFS,我们需要考虑生成的结果是否基于观察到的结果是合理的。
即使有了改进的评估指标,训练期间对其进行优化仍然是一个重大挑战。在训练过程中,研究人员经常使用预训练的 ImageNet 分类器作为特征提取器(Johnson et al., 2016; Kumar et al., 2022),以比较生成的输出与真实值,从而同时优化低级和高级特征。此外,还提出了各种基于 GAN 的损失函数,以增强生成输出的感知质量(Huang et al., 2017; Zhang et al., 2020b)。扩散模型似乎带来了显著更强的真实感,但新的问题,如收敛速度慢和资源消耗高,仍然需要人们投入努力进行探索。
2.3.2 长期合成
尽管在短期视频预测方面取得了显著进展,但在扩展时间范围内合成事件仍然具有挑战性,因为动态场景中存在长期依赖性和复杂对象之间的交互。简单地将短期模型以迭代方式应用于长期预测,通常会导致质量迅速下降(Wu et al., 2022b; Hu et al., 2023b)。低级视觉方法(如 DMVFN(Hu et al., 2023b))可能主要关注有限数量的未来帧的视频预测,通常在 0.3 秒以内。由于模型容量有限,无法形成对现实世界的全面理解,大多数现有的视频合成模型主要建模像素级分布。在处理长时间的自然视频时,这些模型在预测对象动态的同时保持视觉质量方面存在困难。一个有希望的方向是引入高级结构信息(Villegas et al., 2017; Ming et al., 2024)。利用这种更高阶的表示有助于模型保留关键细节,并在扩展的时间尺度上保持时间一致性。利用大型扩散模型的先验知识,如 SVD(Blattmann et al., 2023a),可以生成 2 到 4 秒的高清视频。然而,我们需要适当的技术来保留这些预训练模型的能力,同时解锁它们的条件生成功能(Wang et al., 2025b; Yang et al., 2025)。在生成更长的视频时,正确处理物理交互提出了更大的挑战(Agarwal et al., 2025)。
2.3.3 泛化能力
数据量和模型复杂性之间的相互作用共同决定了算法性能的上限。尽管互联网上有大量的视频数据,但适合视频合成的高质量视频数据集的稀缺性仍然是一个限制因素。现有数据集通常存在数据分布简单、分辨率低和运动多样性有限等问题。这些限制阻碍了当前视频合成模型处理高分辨率内容和大运动尺度的能力,从而限制了它们在多样化和未见场景中的实际应用能力。高分辨率视频合成本质上具有挑战性,需要大量的计算资源(Blattmann et al., 2023b)。计算负担进一步复杂化了实际应用中的实时部署。
2.4 数据集

视频合成模型的发展高度依赖于训练数据集的多样性、质量和特征。一个常见的观察结果是,数据集的适用性随着其维度和规模的不同而变化:低维数据集通常规模较小,表现出有限的泛化能力。相比之下,高维数据集提供更大的变异性,有助于更强的泛化能力。一般来说,近年来视频的复杂性和分辨率不断增加,如图1所示。在表1中,我们总结了视频合成中使用最广泛的数据集,突出其规模和可用的监督信号,以提供对当前数据集格局的全面概述。对于原始论文或项目页面中缺乏详细报告的数据集,我们使用均值或中值统计估计缺失值,以确保分析的一致性。
挑战:
统一图像和视频数据的组织:计算机视觉研究的很大一部分历史上集中在图像模态上。因此,图像数据集通常被更仔细地策划,并包含更丰富的注释。代表性大规模图像数据集包括 YFCC100M(Thomee et al., 2016)、WIT400M(Radford et al., 2021)和 LAION400M(Schuhmann et al., 2021)。鉴于可用图像数据的规模,有效利用基础图像模型的知识至关重要。当将视频数据纳入训练流程时,通常需要过滤掉低质量片段,并选择合适的采样帧率。
确定不同领域数据的比例:计算机图形合成数据、2D 动漫数据、真实世界视频和带有特效的视频在视觉特征上存在巨大差异。此外,将来自不同来源的数据标准化到固定分辨率具有挑战性,因为存在不同的宽高比,以及分辨率依赖的细节,如字幕和纹理。许多帧合成方法对分辨率敏感,部分原因是分辨率与对象运动强度之间的相关性(Sim et al., 2021; Hu et al., 2023b; Yoon et al., 2024)。
我们按数据来源的丰富程度分两栏列了一下相关数据集(表1):

确定性合成

在短期未来帧合成(FFS)中,基于原始像素空间的方法取得了有希望的成果。本节回顾了代表性方法,并讨论了相关挑战。
3.1 原始像素空间
3.1.1 循环网络
PredNet(Lotter et al., 2017)率先探索了循环神经网络在视频合成中的应用,从神经科学中的预测编码中汲取灵感,并采用循环卷积网络有效地处理视频特征。在此基础上,PredRNN(Wang et al., 2017)通过改进 LSTM 架构,引入双记忆结构,旨在增强时空建模能力。尽管取得了这些进展,但该模型仍面临视频合成任务中的梯度消失问题。为解决这些限制,ConvLSTM(Shi et al., 2015)应运而生,通过巧妙地将 LSTM 与 CNN 结合,有效捕捉运动和时空动态,对后续视频合成模型产生了重大影响。E3D-LSTM(Wang et al., 2019)进一步发展了该领域,通过在 RNN 中引入 3D 卷积,并引入门控自注意力模块,显著提升了长期合成能力。然而,3D 卷积引入的计算复杂性增加可能会在某些应用中抵消性能提升。MSPred(Villar-Corrales et al., 2022)提出了一个多层次的卷积循环网络,该网络在多个时间频率上运行,用于预测未来视频帧以及其他表示,如姿态和语义。
挑战:尽管循环网络在捕捉时间依赖性方面表现出色,但在视频预测任务中仍面临诸多挑战。它们固有的顺序性质使得它们能够逐帧进行建模,但这也导致了较高的计算复杂性,尤其是在高分辨率场景中。这从循环网络基础模型与非循环网络基础模型相比显著更高的浮点运算量(FLOPs)和更低的每秒帧数(FPS)中可见一斑(Tan et al., 2023)。此外,循环网络容易出现梯度消失和爆炸问题,这严重阻碍了它们学习长期依赖性(Gao et al., 2022)。这些挑战凸显了需要替代方法来平衡效率和性能,例如无循环的模型,这些模型已在各种视频预测任务中显示出有希望的结果。
3.1.2 卷积网络
卷积神经网络(CNNs)在视频合成技术的发展中发挥了关键作用。这一进展始于多尺度 AdvGDL(Mathieu et al., 2016),随后在该领域取得了一系列重大进展。随后,PredCNN(Xu et al., 2018)通过超越其前身 PredRNN(Wang et al., 2017)在多个数据集上的表现,确立了新的基准。引入 SimVP(Gao et al., 2022)标志着卷积方法在视频预测中的另一个里程碑。受 ViT(Dosovitskiy et al., 2021)的启发,该方法引入了简化的 CNN 架构来提取连续的标记,证明了这种配置可以在视频合成中实现相当的性能。
挑战:简单易实现且速度快,但纯二维 CNN 基础模型并不擅长在输入帧的空间上移动像素。CAIN(Choi et al., 2020)和 FLAVR(Kalluri et al., 2023)分别引入了通道注意力和三维 U-Net 架构用于中间帧合成,但它们并未完全取代基于核的和基于流的明确像素运动方法。此外,为了追求效率,大多数用于 FFS 的 CNN 基础模型保持相对较小的参数量,通常不超过 6000 万(Tan et al., 2023)。相比之下,视频扩散模型已扩展到超过 15 亿参数(Blattmann et al., 2023a),以充分利用大规模数据集。对 CNN 基础模型进行有效扩展仍然是一个重大挑战。预计针对高分辨率、实时应用的短期预测模型和旨在利用大规模数据集以增强生成能力的模型将沿着不同的发展路径前进。
3.1.3 基于运动的合成
光流是一种用于描述视频中连续帧之间像素运动的技术。通过计算一个像素从一帧到下一帧的位移,光流能够对当前帧的像素进行扭曲,以生成代表近期未来的合成帧(Liu et al., 2017)。基于流的方法可以被视为基于核的方法的补充,因为后者通常将像素的运动限制在一个相对较小的邻域内(Cheng & Chen, 2021)。SDC-Net(Reda et al., 2018)提出了一种混合方法,继承了基于矢量和基于核的方法的优势。FVS(Wu et al., 2020)通过引入语义图和实例图等补充信息来增强合成质量。尽管这种方法有效,但它引入了挑战,因为增加了数据模态和更高的计算需求。OPT(Wu et al., 2022b)通过基于优化的方法估计光流。通过迭代细化当前光流估计,可以显著提高下一帧的质量。这种方法有效地利用了现成的光流模型(Teed & Deng, 2020)和视频帧插值方法(Jiang et al., 2018; Huang et al., 2022b)的知识。尽管训练不是必需的,但推理过程中的迭代优化会带来相当大的计算成本。DMVFN(Hu et al., 2023b)通过动态调整网络架构以适应运动幅度,改进了密集体素流(Liu et al., 2017)估计。DMVFN 进一步证实了粗到细、多尺度、端到端模型在解决短期运动估计问题中的有效性。
挑战:光流估计仍然是一个活跃且广泛研究的研究领域(Teed & Deng, 2020; Huang et al., 2022a; Sun et al., 2022; Dong & Fu, 2024)。然而,主流的光流模型在合成数据上进行训练,并采用大量的增强手段,往往与 FFS 的目标场景存在显著差异。此外,这些模型的学习目标与生成有助于准确像素扭曲和高质量图像合成的光流的目标并不一致。Xue et al.(2019)指出,对于不同的下游任务,往往需要对光流估计网络进行微调,甚至从头开始训练。有趣的是,性能更高的光流网络可能导致图像合成结果恶化,因为它们通常强调诸如遮挡等模糊区域,并且可能缺乏足够的空间分辨率(Niklaus & Liu, 2020; Huang et al., 2022b)。在现实世界场景中,获得真实光流标签仍然是一个主要挑战。
我们相信,随着光流方法的不断改进,可以越来越准确地合成近期未来帧。然而,将光流方法整合到长期视频生成中仍然是一个重大挑战(Liang et al., 2024)。光流通常仅限于在非常短的时间跨度内预测像素运动,无法协助生成新的视频内容。
在运动表示方面仍有大量的探索机会。例如,GaussianPrediction(Zhao et al., 2024)探索了使用三维高斯表示来建模动态场景的外观和几何形状,从而能够为未来场景渲染图像。MoSca(Lei et al., 2024)提出了运动支架表示,将二维基础模型(如深度估计、像素轨迹和光流)的预测提升到三维,并使用物理启发约束进行优化。最终,MoSca 使用一组动态高斯重建场景的几何形状和外观(Wu et al., 2024b)。基于视频扩散模型,V3D(Chen et al., 2024f)利用其学习到的世界模拟能力感知三维世界,引入几何一致性先验,并将视频扩散模型微调为多视图一致的三维生成器。将新的表示方法无缝整合到现有框架中提出了新的挑战。
3.1.4 Transformer
自 ViT(Dosovitskiy et al., 2021)的开创性设计以来,该设计直接将 Transformer 应用于图像块序列以提取连续标记,Transformer 在帧合成中的应用引起了广泛关注。视频帧插值是一项与 FFS 密切相关的任务(Liu et al., 2017)。Shi et al.(2022)和 Lu et al.(2022)提出了基于 Transformer 的视频帧插值框架,利用自注意力机制捕捉长距离依赖关系并增强内容感知能力。与卷积的主要区别在于,自注意力机制可以动态计算每个块与其他所有块之间的相关性,从而捕捉全局信息,而卷积则使用固定内核在局部区域内提取特征。这些方法进一步引入了创新策略,例如时空局部注意力和跨尺度窗口注意力,以提高性能并有效处理大运动。Ye & Bilodeau(2023)提出了一个高效的 Transformer 模型用于视频预测,利用新颖的局部时空分离注意力机制,并比较了三种变体:全自回归、部分自回归和非自回归,以平衡性能和复杂性。许多正在进行的研究继续探索 Transformer 在不同运动幅度下的帧间动态建模,以及解决高分辨率帧合成中的挑战(Park et al., 2023; Zhang et al., 2024)。
挑战:许多研究人员认为 Transformer 在大规模数据集上表现特别出色(Zhai et al., 2022; Smith et al., 2023)。然而,大多数现有研究主要集中在高级视觉任务上。此外,Transformer 在许多任务中的成功高度依赖于充分利用基础模型的能力。在图像合成领域,最佳实践仍然不清楚(Li et al., 2023)。从大型语言模型(LLMs)及相关架构中汲取见解可能是一个有希望的方向,我们将在第 5.2 节中进一步探讨。
3.2 特征空间
在原始像素空间中进行合成通常会使模型负担过重,因为它要求从头开始重建图像——对于高分辨率视频数据集来说是一项特别具有挑战性的任务。这一挑战促使研究人员将关注点从像素级合成的复杂性中转移出来,许多研究转向在特征空间中进行高级特征合成,专注于诸如分割图和深度图等表示。这些方法提供了一种更高效的方式来处理视频数据的复杂性(Oprea et al., 2020)。
未来语义分割:未来语义分割是视频合成的一种进步方法,主要关注为未来视频帧生成语义图。这种方法偏离了传统的原始像素预测,利用语义图缩小合成范围并增强场景理解。在此背景下,S2S 模型(Luc et al., 2017)作为一个开创性的端到端系统脱颖而出。它将 RGB 帧及其对应的语义图作为输入和输出进行处理。这种整合不仅推进了未来语义分割,还增强了视频帧预测,展示了语义级预测的优势。在此基础上,SADM(Bei et al., 2021)引入了进一步的创新,通过整合光流与语义图,利用光流进行运动跟踪,利用语义图进行外观修复,前者用于扭曲输入帧,后者用于修复被遮挡的区域。
未来深度预测:深度图作为编码三维信息的二维数据结构,能够以最小的计算成本为模型提供对三维世界的增强感知。预测未来深度图可以为 FFS 任务带来益处。MAL(Liu et al., 2023)引入了一个基于元学习框架的双分支架构,包括未来深度预测和辅助图像重建任务。该框架通过改善合成未来帧的质量,特别是在复杂和动态场景中,提高了性能。
挑战:在特征空间中进行未来预测面临着由于时间动态和空间上下文之间复杂的相互作用所带来的重大挑战。模型必须捕捉复杂的运动模式,并准确预测深度或语义区域,这需要对三维场景结构和对象交互有深入的理解。在处理遮挡、视角变化和复杂背景的同时,确保时间一致性并保持空间精度至关重要。使用高分辨率特征图和大规模标注数据集进一步增加了计算和数据需求。将模型泛化到未见场景和对象仍然是一个主要挑战,需要能够适应多样化视觉外观和上下文的鲁棒模型。这些挑战凸显了需要创新方法,例如元辅助学习,以增强未来预测能力。
4. 随机合成


在视频合成的早期阶段,该领域主要被视为一项低级计算机视觉任务,重点是使用确定性算法来优化像素级指标,如均方误差(MSE)、峰值信噪比(PSNR)和结构相似性(SSIM)。然而,这种方法本质上限制了这些模型的创造性潜力,因为它将可能的运动结果限制在单一的固定轨迹上(Oprea et al., 2020)。为了克服这一限制,视频合成领域经历了从依赖短期确定性预测到拥抱长期随机生成的范式转变。这种转变承认了尽管随机合成可能产生与真实值偏差较大的结果,但对于建模视频演变的深度理解和增强创造性至关重要。
4.1 随机性建模
不确定的对象运动可以通过将随机分布纳入确定性框架中,或者直接使用概率模型来建模。
随机分布:在早期阶段,VPN(Kalchbrenner et al., 2017)使用卷积神经网络(CNNs)基于像素分布对视频进行多次预测,而SV2P(Babaeizadeh et al., 2018)通过引入随机分布估计增强了动作条件模型(Finn et al., 2016)。将重点转移到对视频元素的更全面表示上,PFP模型(Hu et al., 2020)提出了一个概率方法,用于同时合成语义分割、深度图和光流。此外,SRVP(Franceschi et al., 2020)利用常微分方程(ODEs),而PhyDNet(Guen & Thome, 2020)则利用偏微分方程(PDEs)来建模随机动力学。一个潜在的缺点在于它们假设物理定律可以从其他变化因素中在线性地解耦,而在潜在空间中,这种假设可能并不适用于所有类型的视频。
概率模型:基于Mathieu et al.(2016)的开创性工作,对抗训练显著推进了FFS任务,通过改进对不确定对象运动的预测。同样,vRNN(Castrejon et al., 2019)和GHVAE(Wu et al., 2021)通过引入似然网络和层次结构,增强了变分自编码器(VAEs),从而为随机合成方法的持续演变贡献了新的维度。
为了应对像素级合成的挑战,一些研究引入了中间表示。S2S(Luc et al., 2017)和Vid2Vid(Wang et al., 2018)将对抗训练纳入未来语义分割框架中。此外,TPK模型(Walker et al., 2017)利用VAE提取人体姿态信息,随后使用GAN预测未来姿态和帧。值得注意的是,直接建模随机分布往往能够实现更广泛的预测覆盖,但通常会导致视觉质量较差。相比之下,概率模型可以产生更清晰的结果,但它们通常面临模式坍塌、训练不稳定和计算成本高等挑战。通过将这两种方法结合起来,SAVP(Lee et al., 2018)将随机建模与对抗训练相结合,实现了在广泛的预测多样性和改进的视觉质量之间的平衡。
认识到对象运动在大多数情况下是确定性的——除了像碰撞这样的不可预见事件之外,SVG(Denton & Fergus, 2018)使用固定和可学习的先验来建模轨迹不确定性,有效地融合了确定性和概率性方法。同样地,但更注重时间连贯性,Retrospective Cycle GAN(Kwon & Park, 2019)引入了一个序列鉴别器来检测假帧。基于隐式神经表示(INRs)用于视频的概念(Sen et al., 2022),这种检查帧真实性的概念进一步扩展到DIGAN(Yu et al., 2022)中,其中重点转移到了一个运动鉴别器,旨在识别不自然的运动。StyleGANV(Skorokhodov et al., 2022)从不同的角度强调运动一致性,通过将连续运动表示整合到StyleGAN2(Karras et al., 2020)中,实现了高分辨率设置中的一致生成。
挑战:尽管随机模型能够捕捉广泛的可能未来,但它们通常在视觉质量方面表现较差,并且计算需求增加。直接建模随机分布往往导致模糊的输出,而概率模型可能会遇到模式坍塌和训练不稳定的问题。在多样性、视觉保真度和计算效率之间取得平衡仍然是一个重大挑战。此外,假设物理定律可以从其他变化因素中在线性地解耦,可能并不适用于所有类型的视频,这强调了需要更具适应性和泛化能力的模型。
4.2 分离组件
随机合成算法主要关注运动中的随机性。然而,这种关注往往忽视了视频中对象的出现和消失过程。因此,许多研究将运动与其他视频元素隔离,或人为地限制其演变,旨在更好地理解运动动力学,同时减少现实场景的复杂性。
内容与运动:视频合成算法通过强调复杂的视觉细节来解决自然视频序列的固有复杂性。为此,它们旨在通过精细的局部信息来建模外观,同时捕捉视频的动态全局内容。然而,在机器人导航和自动驾驶等应用中,理解对象运动模式比视觉保真度更为重要。这种优先级的转变推动了算法的发展,这些算法强调对象运动预测和运动与外观的解耦。一个显著的早期工作,CDNA(Finn et al., 2016),通过明确预测对象运动开创了先例。它保持外观不变性,使得模型能够泛化到训练集之外的未见对象。MoCoGAN(Tulyakov et al., 2018)以无监督的方式学习解耦运动和内容,并且使用单独的编码器分别处理内容和运动,这种设计已被广泛应用于视频预测模型中。这一概念在LMC(Lee et al., 2021)中得到了进一步探索,其中运动编码器基于残差帧预测运动,内容编码器从输入帧序列中提取特征。MMVP(Zhong et al., 2023)采用了不同的方法,使用单个图像编码器,随后是一个双流网络,分别处理运动预测和外观保持,然后进行解码。为了应对运动的随机性,AMC-GAN(Jang et al., 2018)通过对抗训练建模多种可能的结果。相比之下,SLAMP(Akan et al., 2021)采用了非对抗性方法,专注于学习解耦的内容和运动表示的随机变量。进一步推动这一研究方向,LEO(Wang et al., 2024c)和D-VDM(Shen et al., 2024)利用扩散模型实现了更逼真的内容-运动解耦,展示了这一方向的最新进展。
前景与背景:在未来的帧预测中,前景对象和背景场景的运动动态往往存在显著差异。前景对象通常表现出更动态的运动,而背景场景则相对静态。这种差异激发了研究者分别预测这些组成部分的运动,从而更细致地理解视频动态。一个在这一领域的重要贡献是DrNet(Denton et al., 2017),它专门针对背景在视频帧中保持相对静止的场景。该模型将图像分解为对象内容和姿态,并利用对抗训练开发了一个场景鉴别器,用于确定两个姿态向量是否来自同一视频序列。同样,OCVP-VP(Villar-Corrales et al., 2023)使用分层场景解析网络SAVi(Kipf et al., 2022)从场景级别到单个对象级别对场景进行分层分割。通过专注于这类视频,预测模型可以通过消除对复杂场景动态的建模需求来简化其学习过程。无论是以人类为中心的任务,如预测人类运动和与环境的互动,还是以对象为中心的任务,如跟踪对象运动和定位,都可以从这种方法中受益。
以人类为中心:FFS通常专注于前景运动,特别是在涉及复杂人类运动的场景中。这些场景的一个常见假设——在许多专门化的数据集中都有所体现——是背景相对静态,这是专注于详细人类运动的数据集的特征。这导致了对理解人类姿态以改善前景运动预测的强烈研究关注。一个代表性例子是DVGPC(Cai et al., 2018),它预测骨骼运动序列,并使用骨骼到图像的Transformer将其转换为像素空间。这种方法有效地弥合了抽象运动表示和视频预测的像素级需求之间的差距,展示了人类中心FFS任务复杂性的细微理解。
以对象为中心:对象中心视频预测的概念最初由CVP(Ye et al., 2019)引入,为这一视频预测的专门子领域奠定了基础。SlotFormer(Wu et al., 2023)引入了基于Transformer的自回归模型,用于从视频序列中学习对象特定的表示。这种设计使得能够一致且准确地跟踪单个对象随时间的变化。一个更近期的进展,OKID(Comas et al., 2023),通过使用Koopman算子将视频分解为不同的组成部分——具体来说,是移动对象的属性和轨迹动态——提供了分析视频序列中对象运动的更细致方法,使其与先前的方法区分开来。
一般情况:专注于人类姿态或对象的方法在特定视频数据集上显示出了相当的潜力,但它们对预定义结构的依赖以及对动态背景的有限适应性限制了它们的泛化能力。这种局限性在它们的性能中得到了反映:在受控条件下虽然有效,但当面对背景变化时,它们往往表现不佳,显示出在更广泛的应用中缺乏足够的适应性。为了弥合这一差距,MOSO(Sun et al., 2023)提出了一个统一框架,将运动、场景和对象识别为视频的三个关键要素。它进一步通过区分场景和对象——其中场景表示背景,对象表示前景——来细化内容分析,这是对视频内容的更细致分解。MOSO的核心贡献是一个两阶段网络架构,旨在用于通用视频分析。在第一阶段,MOSO-VQVAE模型将视频帧编码为基于标记的表示,并通过视频重建任务进行训练,以学习信息丰富的嵌入。在第二阶段,使用Transformer处理掩码标记预测,增强了模型的时间推理能力。这种设计使得模型能够执行各种基于标记的任务,包括视频预测、插值和无条件视频生成。
挑战:在视频中分离内容与运动,或者前景与背景,是复杂的,因为时间动态和空间上下文之间存在复杂的相互作用。模型必须准确捕捉和预测运动模式、深度和语义区域,同时保持时间连贯性和空间准确性。遮挡、视角变化和复杂背景的存在进一步增加了难度。使用高分辨率特征图和大规模标注数据集进一步加剧了计算需求。对未见场景和对象的泛化仍然是一个主要挑战,需要能够适应多样化视觉外观和上下文的强大模型。将分离处理的概念应用于第5节中讨论的生成方法也提出了一个重大挑战。
4.3 运动可控合成
在FFS领域,一个专门的研究方向已经出现,专注于明确控制运动。这一方向与传统的依赖于过去运动趋势来预测未来对象位置的方法不同。这一领域的核心挑战在于合成遵循这些直接指令的视频,同时保持自然和连贯的流动——这一任务需要对用户意图和视频上下文中的运动动力学进行细致的理解。这一挑战凸显了用户控制与模型自主想象力之间的微妙平衡,标志着FFS模型的概念化和实施方式发生了重大转变。
笔触:由于从单一静态图像生成视频时没有历史运动信息,因此出现了一些允许交互式用户控制的方法。iPOKE(Blattmann et al., 2021)引入了技术,通过局部交互式笔触和戳动使用户能够在静态图像中变形对象,从而生成一系列视频帧。这些笔触代表了用户对对象的预期运动。在此创新方向的基础上,Controllable-Cinemagraphs模型(Mahapatra & Kulkarni, 2022)提出了一种方法,用于交互式控制流体元素的动画。这些进展强调了用户中心方法在运动可控FFS领域日益增长的重要性。
指令:将指令整合到各种模态中——包括局部笔触、草图和文本——在旨在捕捉用户指定运动趋势的作品中变得越来越常见。VideoComposer(Wang et al., 2023a)通过结合文本描述、手绘笔触和草图来合成视频。这种方法遵循文本、空间和时间约束,利用潜在视频扩散模型和运动向量提供明确的动态指导。本质上,它可以生成与用户定义的运动笔触和形状草图一致的视频。同样地,DragNUWA(Yin et al., 2023)主要利用文本进行内容描述,以及笔触来控制未来运动,从而能够生成可定制的视频。这些方法通过扩展用户输入模态的范围来推动视频生成领域的发展。
挑战:在明确的用户控制下实现自然和连贯的视频合成仍然是一个重大挑战。模型必须准确解释用户意图,并生成遵循指定运动指令的视频,同时保持时间和空间连贯性。在用户控制和模型自主想象力之间取得平衡至关重要。确保生成的视频既具有视觉吸引力又符合上下文,进一步增加了复杂性,需要对用户意图和视频动态有深入的理解。
5. 生成性合成


对象的出现和消失引入了不可预测性,生成性模型需要深刻理解支配现实世界的物理原理。生成性模型并不依赖于从历史帧中简单外推的线性运动预测,而是通过复杂的和富有想象力的建模技术来应对这一挑战。因此,将静态图像转化为动态视频的任务——通常被称为图像动画问题——已成为应用生成性视频预测技术的有前景的候选任务。
5.1 基于扩散的生成
扩散模型(Ho et al., 2020)已成为图像生成的主导方法。早期尝试视频预测的工作(Ho et al., 2022; Yang et al., 2023; Harvey et al., 2022; Voleti et al., 2022; Singer et al., 2023)通过将传统的 U-Net(Ronneberger et al., 2015)架构扩展到 3D U-Net 结构,利用像素空间的扩散模型,但由于计算需求高,仅限于生成低分辨率和短时长的视频片段。潜扩散模型(Latent Diffusion Model, LDM)(Rombach et al., 2022)将这种能力扩展到图像的潜空间中,显著提高了计算效率并减少了资源消耗。这一进步为将扩散模型应用于视频生成铺平了道路(Blattmann et al., 2023b)。
潜扩散模型扩展。LDM 的扩展已在视频合成中展现出强大的生成能力(Voleti et al., 2022)。例如,Video LDM(Blattmann et al., 2023b)将预训练的图像模型引入视频生成中,实现了多模态、高分辨率和长期视频合成。同样,SEINE(Chen et al., 2024d)引入了一种灵活的视频扩散模型,能够生成过渡序列,从而将短片扩展为更长的视频。Burgert et al.(2025)提出了一种可扩展的方法,用于微调视频扩散模型以实现运动控制,而无需修改模型架构或训练流程。它引入了一种噪声扭曲算法,用光流引导的扭曲噪声替换随机时间高斯噪声,同时保持空间高斯性。Magic141(Yi et al., 2025)将文本到视频生成任务分解为两个更简单的子任务以进行扩散步骤蒸馏:文本到图像生成和图像到视频生成。研究表明,在相同的优化设置下,图像到视频生成比直接的文本到视频生成更容易收敛,并探索了计算成本与视频质量之间的权衡。
文本引导的生成和额外信息。近期的研究努力集中在利用额外的模态(除了 RGB 图像)来完成文本引导的视频生成任务(Chai et al., 2023)。LFDM(Ni et al., 2023)将潜扩散模型扩展到潜空间中,基于文本引导合成光流序列。Seer(Gu et al., 2024)将预训练的 T2I 模型沿时间轴扩展,使模型能够利用自然语言指令和参考帧来构想未来结果的多种变体。Emu Video(Girdhar et al., 2024)基于文本引导生成图像,并将其扩展为视频,使其能够适应多样化的文本输入。DynamiCrafter(Xing et al., 2024)将文本引导的图像动画扩展到开放域图像场景中。SparseCtrl(Guo et al., 2024)支持从草图到视频、从深度到视频以及视频预测的生成,并扩展了输入模态的范围。其他方法,如 PEEKABOO(Jain et al., 2024),通过掩码注意力模块将用户交互式控制集成到 T2V 模型中,而无需额外的训练或推理开销。

近期开源的大型模型。HunyuanVideo(Kong et al., 2024)是一个非常大的开源视频生成模型(参数量为 13B)。该模型依赖于数据策划和图像-视频联合训练等关键策略,其生成质量达到了与领先的闭源模型相当甚至更好的水平,有效缩小了开源和闭源解决方案之间的性能差距。Ma et al.(2025)发布了一个更大规模的视频生成模型 Step-Video-T2V,参数量为 30B,以及一个新的视频生成基准 Step-Video-T2V-Eval。该模型采用了深度压缩视频变分自编码器,用于紧凑高效的视频表示,并利用流匹配方法训练 DiT(Peebles & Xie, 2022)架构,将输入噪声去噪为潜帧。为了提高视觉质量和减少伪影,应用了基于视频的直接偏好优化方法。对于文本驱动的图像到视频生成任务,Huang et al.(2025)发布了同等规模的 Step-Video-TI2V 模型,参数量为 30B,以及相应的基准 Step-Video-TI2V-Eval。值得注意的是,提高视频生成性能并不一定需要增加模型参数量。Seaweed-7B(Seawead et al., 2025)仅包含 7B 参数,却展现出与数十亿参数模型相当的生成质量。这为如何在不依赖于单纯扩大模型规模的情况下有效提升中等规模 DiT 模型的性能提供了重要见解。Sand-AI(2025)开源了一个 24B 参数的视频生成模型 MAGI-1,该模型将视频帧序列划分为固定长度的视频块,并采用逐块自回归扩散框架,通过逐块提示实现文本驱动的图像到视频生成。这一设计展示了将高保真视频合成和细粒度指令控制统一起来的有前景的方向。
挑战。尽管扩散模型在视频生成方面取得了显著进展,但仍面临一些关键挑战。确保帧与帧之间的时序连贯性和一致性对于实现逼真效果至关重要,但仍然是一个重大挑战(Chen et al., 2024e; Xu et al., 2024)。扩散模型的计算效率和可扩展性受到其资源密集型特性的限制,这限制了它们的更广泛应用(Peebles & Xie, 2023)。可控性和可解释性问题仍然存在,因为文本引导并不总是与视觉结果一致,且模型行为通常难以捉摸。数据的可用性和多样性对于训练健壮的模型至关重要,但获取全面且多样化的数据集仍然是一个主要瓶颈。
5.2 基于令牌的生成
基于扩散的方法在图像和视频生成领域受到了广泛关注。然而,与当代大规模语言模型相比,这些模型的参数规模通常较小。近期的研究越来越多地关注如何利用 LLM(Large Language Models)来完成此类任务,借助其优化技术并利用积累的见解来研究视觉领域的扩展规律。
关键组件。实现基于令牌的 FFS 需要两个关键组件:高质量的视觉令牌化器和高效可扩展的 LLM 框架。创新成果如 VQ-VAE(Van Den Oord et al., 2017)和 VQGAN(Esser et al., 2021)将自回归模型与对抗训练策略相结合,以解决图像量化和令牌化问题。有效的视觉令牌化器应在最小化每张图像或视频片段所需的令牌数量的同时,尽可能保留无损的视觉保真度。然而,高分辨率图像的无损重建所需的大量令牌,对于训练期间处理长视频序列提出了挑战,从而限制了视频生成能力。
早期 Transformer 应用。在 LLM(Brown et al., 2020; Achiam et al., 2023)出现之前,Transformer 已经在时间序列建模中产生了重大影响。Video Transformer(Weissenborn et al., 2020)率先将 Transformer 架构应用于视频合成,引入了自回归建模方法。尽管取得了成功,但它继承了基于 Transformer 的模型的常见局限性,包括高训练资源需求和慢推理速度。
潜空间建模。潜视频 Transformer(Latent Video Transformer, LVT)(Rakhimov et al., 2021)引入了一种新颖的潜空间方法,自回归地建模时间动态并预测未来特征,显著减少了计算开销。其他工作,如 VideoGen(Zhang et al., 2020c)和 Video VQ-VAE(Walker et al., 2021),也利用 VQ-VAE 框架(Van Den Oord et al., 2017)提取离散令牌用于视频预测。相比之下,Phenaki(Villegas et al., 2022)改进了 ViViT(Arnab et al., 2021)架构以提取连续令牌。NUWA 框架(Wu et al., 2022a)提出了一个多功能的 3D Transformer 基础编码器-解码器架构,能够适应多样化数据模态和任务,进一步证明了 Transformer 在视频合成中的潜力。NUWA-Infinity(Liang et al., 2022)在此基础上构建,通过创新的生成机制,实现了无限高分辨率视频合成,反映了持续努力将生成任务统一到不同模态中。
视觉领域的上下文学习。LVM(Bai et al., 2024)引入了序列建模,以增强大规模视觉模型的学习能力,证明了基于序列的模型在上下文学习中的可扩展性和灵活性。提出了“视觉句子”的概念,其中一系列内在相关的图像被组织成类似语言句子的形式。这使得模型能够在不依赖非像素级知识的情况下,利用序列信息进行句子续写和其他视觉任务。Painter(Wang et al., 2023b)提出了一个通用的视觉学习框架,使图像能够通过上下文视觉理解“说话”,从而增强图像生成和解释能力。SegGPT(Wang et al., 2023c)探索了基于 GPT 的架构用于图像分割,引入了“分割一切”的概念,并证明了在无监督学习设置下实现统一分割的潜力,从而推进了视觉分割任务的泛化能力。
视频生成的进展。在视频生成领域,MAGVIT(Yu et al., 2023b)提出了一个掩码生成视频 Transformer,通过掩码某些区域并预测缺失片段来高效处理视频。MAGVIT-v2(Yu et al., 2024)表明,基于 Transformer 的模型可能在视觉生成任务中超越扩散模型,突出了视觉令牌化器的关键作用。VideoPoet(Kondratyuk et al., 2024)引入了一个大型语言模型,用于零样本视频生成,推动了无监督视频合成的边界。它使用户能够根据高级文本提示生成或编辑视频,并且在捕捉视频数据中的时间关系和上下文关系方面表现出色。文本引导的视频合成算法通过整合上下文视觉信息和文本引导来生成一系列帧。文本引导的视频补全(TVC)任务涉及在各种条件下完成视频,包括第一个帧(视频预测)、最后一个帧(视频倒带)或两者(视频过渡),并由文本指令引导。MMVG(Fu et al., 2023)使用自回归编码器-解码器架构解决 TVC 任务,整合文本和视觉特征,形成了一个统一的框架,能够处理多样化的视频合成任务。
挑战。基于令牌的 FFS 面临重大挑战,特别是在设计高效的视觉令牌化器时,需要在最小化令牌数量与近乎无损的重建之间取得平衡,尤其是对于高分辨率内容。基于 Transformer 的模型的高计算需求也为采用带来了障碍,特别是在资源受限的环境中。当计算资源有限时,先前研究中报道的在这种范式下的涌现现象可能无法显现(Bai et al., 2024)。近期的研究(Sun et al., 2024a)表明,令牌化模型难以与扩散模型的视觉质量相匹配的一个原因是它们与高质量社区资产的整合有限,例如强大的训练基础设施和策划良好的数据集。
6. 应用领域
未来帧合成(FFS)的应用范围广泛,涵盖了多个领域,突显了其在各行业中的重要性和潜力。
世界模型
世界模型(Ha & Schmidhuber, 2018b;a; Zhu et al., 2024)为复杂系统动态的模拟和预测提供了一个通用框架。这些模型广泛应用于强化学习和机器人技术中,使智能体能够做出明智的决策并执行导向期望结果的动作。FFS 是开发世界模型的关键学习目标(Hafner et al., 2020; 2021; 2023; Wang et al., 2024a; Ge et al., 2024; Agarwal et al., 2025)。近期的研究(Escontrela et al., 2024)表明,视频预测可以被纳入奖励建模中,从而进一步支持强化学习。GameNGen(Valevski et al., 2025)在可控 FFS 方面展示了出色的世界建模性能和强大的指令遵循能力。
自动驾驶
FFS 对于自动驾驶车辆(包括自动驾驶汽车和无人机)至关重要,因为它使它们能够预测物体、行人和其他车辆的运动。这种预测能力对于确保安全和高效的导航是必不可少的。例如,GAIA-1(Hu et al., 2023a)采用了一个统一的世界模型,整合了多模态 LLM 和扩散过程,用于预测控制信号和未来帧,从而增强了自动驾驶系统中的决策能力。在大多数现有的驾驶辅助系统中,视觉输入首先被转化为结构化表示(例如物体、车道线和交通信号灯),然后基于这些模态进行下游预测。在现实世界场景中,充分利用原始视觉信息进行轨迹预测仍然是一个重大挑战(Nayakanti et al., 2023; Varadarajan et al., 2022)。近期的研究(Gu et al., 2023)表明,充分利用视觉输入中的语义信息可以显著提高动态场景中的行为预测能力。
机器人技术
在机器人领域,FFS 被用于指导机器人在动态环境中导航。它使机器人能够有效地规划路径、操纵物体和避开障碍物,如(Finn & Levine, 2017)所示。通过预测未来状态,机器人系统可以做出主动决策,从而提高在复杂环境中的适应性和操作效率。GR-1 和 GR-2 方法(Wu et al., 2024a; Cheang et al., 2024)表明,视觉机器人操作可以从大规模视频生成预训练中显著受益。在大规模视频数据集上进行预训练后,GR-1/2 可以无缝地在特定于机器人的数据上进行微调,并展现出对未见场景和物体的强大泛化能力。
电影制作
FFS 在电影行业找到了有价值的应用,特别是在特效、动画和预可视化方面。它协助电影制作人生成逼真的场景并增强整体的电影体验。例如,Mahapatra & Kulkarni(2022)利用 FFS 生成视觉上引人入胜的序列,以增强叙事连贯性并支持电影制作中的艺术表达。
气象学
FFS 在天气预报中发挥着重要作用,协助气象学家模拟和预测大气动态。通过准确预测未来的时空模式,FFS 提高了天气预测模型的精度,如 Shi et al.(2017)所示。这种能力对于操作性天气预报和灾害准备至关重要。
异常检测
Liu et al.(2018)提出了一种基于未来帧预测的视频异常检测方法,假设正常事件是可预测的,而异常事件偏离了预期模式。该方法引入了运动约束和外观约束,以确保预测的未来帧在空间和时间维度上与真实帧一致。
总之,这些多样化的应用突显了 FFS 作为一种强大工具的重要性,它能够从过去的观察中预测未来状态,使其在人工智能、机器人技术、娱乐等领域具有广泛的应用前景。
挑战。当将 FFS 方法应用于现实世界场景时,可能会出现一些潜在的挑战。例如,特定领域的应用可能需要解决少样本学习(Gui et al., 2018)或测试时适应(Choi et al., 2021)的问题。另一个挑战在于有效整合向量化数据与基于图像的输入。此外,可解释性在现实世界应用中也是一个问题,因为端到端的 FFS 方法通常缺乏透明度,难以解释。
7. 相关工作
早期视频预测综述
视频预测领域以及相关领域的动作识别和时空预测学习近年来取得了显著进展,这在很大程度上得益于深度学习技术。已有几篇全面的综述文章对这一领域的最新方法、基准数据集和评估协议进行了概述。Zhou 等人(2020)回顾了 2020 年之前开发的下一帧预测模型,将它们分为序列到单帧和序列到序列架构。该综述通过分析这些方法的架构设计和损失函数进行比较,并基于标准数据集和评估指标提供了定量性能比较。Oprea 等人(2020)对视频预测的深度学习方法进行了全面综述,提出了一个分类体系来分析现有模型。该综述还包含实验结果,以便对最新技术进行定量评估。Rasouli(2020)提供了基于视觉的预测算法的概述,重点关注深度学习方法。他们将预测任务分为视频预测、动作预测、轨迹预测、身体运动预测以及其他相关应用,并讨论了常见的网络架构、训练策略、数据模态、评估指标和基准数据集。尽管这些综述关注早期视频预测技术的发展,但我们的综述特别强调 FFS 的合成方面及其向生成方法的演变,突出了生成模型在产生真实且多样化未来帧预测中的日益重要性。
Kong 和 Fu(2022)对动作识别和预测领域的最新技术进行了综述,涵盖了现有模型、代表性算法、技术挑战、动作数据集、评估协议和未来研究方向。Tan 等人(2023)介绍了 OpenSTL,这是一个时空预测学习的统一基准,将方法分为基于循环和无循环的模型。该论文在多个数据集上提供了标准化评估,并深入分析了模型架构和数据集特征如何影响性能。这些综述对最近模型的技术细节(如架构和基准)提供了非常具体的分析。对于我们的综述,这些综述是关于技术细节(如架构和基准)的优秀补充。
视频扩散模型综述
最近,视频扩散模型的出现导致了几个专门的综述。Xing 等人(2023)对 AI 生成内容时代的视频扩散模型进行了全面综述,将现有工作分为视频生成、视频编辑以及其他视频理解任务。该综述对这些领域的文献进行了深入分析,并讨论了当前的挑战和未来的研究趋势。Li 等人(2024)对长视频生成的最新进展进行了综述,将现有方法总结为两种关键范式:分而治之和时间自回归建模。他们还对数据集和评估指标进行了全面概述和分类,并讨论了这一快速发展的领域中出现的挑战和未来方向。Sun 等人(2024b)对 Sora 这一 OpenAI 的文本到视频模型进行了综述,将相关文献分为三个主题——进化生成器、追求卓越和逼真全景——同时也讨论了数据集、评估指标、现有挑战和未来方向。作为补充,Liu 等人(2024b)对 Sora 的底层技术、系统设计、当前限制及其在大型视觉模型中的潜在作用进行了全面分析。Melnik 等人(2024)对视频扩散模型的关键组成部分进行了深入探索,重点关注它们的应用、架构设计和时间动态建模。相比之下,我们的综述提供了对 FFS 方法的更广泛回顾,将像 Sora 这样的模型作为生成方法在 FFS 中演变的一个例子。对于我们的综述,这些综述是关于技术细节(如架构和基准)的优秀补充。
本综述关注点
我们的综述对 FFS 的历史和最新工作进行了全面回顾,特别关注从确定性到生成性合成方法的转变。该综述强调了生成模型在产生真实且多样化未来帧预测中的日益重要性,并突出了关键进展和方法论转变。
结论
在本综述中,我们对 FFS 的各个方面进行了考察,包括广泛使用的数据集、不断发展的算法范式以及该领域所面临的主流挑战。
考虑到人工智能的更广泛发展趋势,我们认为视频合成研究的轨迹应该出现分化。一方面,未来的研究应该专注于针对高清视频应用的模型轻量化,以实现诸如视频压缩和短期运动估计等低层级目标。另一方面,研究应该探索如何利用大量的计算资源和多样化、长时长的视频数据集来发展模型对物理世界的根本理解,并生成内容。对于后者,未来的研究应该优先开发能够激励随机合成的评估指标,从而扩展模拟人类世界复杂性的潜力。最终目标是开发出具有深刻理解视频内在动态的视频合成模型。这样的模型将能够在现实场景中生成跨越较长时间范围、具有高随机复杂性的视频。
我们的分类法基于算法的随机性,突出了从确定性方法向生成性方法的重大转变。本综述强调了在视频合成中平衡像素级精度与对复杂场景动态的深入理解的必要性。此外,我们还探讨了随机出现和消失过程的复杂性,并倡导改进评估指标以及使用大规模视频数据集和大量计算资源。我们还对现有的研究方向进行了分类,并讨论了该领域的主流挑战。这些见解旨在为未来的视频合成研究提供信息和指导。随着该领域的进展,我们期待出现具有更深入和更细致的现实世界动态理解的模型。这种进步有望提高准确性、效率和创造性潜力,为新应用和未来研究铺平道路。
更广泛的影响。不包含生成性内容的未来预测模型的性能改进不会带来显著的负面社会影响。随着 AI 生成方法的兴起,我们创造和消费视频内容的方式正在迅速演变。尽管 AI 视频生成技术有潜力为内容营销人员和视频创作者节省大量时间和金钱,但它们也引发了众多伦理问题。积极的一面是,AI 视频生成可以节省时间和金钱,拓展创作者的想象力,并使视频创作更加民主化,让小企业和个人能够与拥有庞大营销预算的公司竞争。然而,不可避免的是,区分真实内容和 AI 生成内容将变得越来越困难。如果没有适当的保障措施,存在虚假信息、宣传和操纵公众舆论的风险。生成性视频可能会歪曲人物和事件,反映训练集中的偏见和歧视,引发法律和版权问题,并可能导致人类视频编辑和动画师的工作流失。除了对内容生成服务提供商施加限制(例如防止不当生成和添加水印)之外,探索 AI 生成媒体检测方法也非常有价值。为了缓解风险,内容生成服务提供商可以防止不当生成并添加水印。探索 AI 生成媒体检测方法(Zou et al., 2025; Chen et al., 2024a)具有重要意义。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com