PDWN：轻量级视频插值网络

原创于 2025-10-15 04:41:16 发布 · 340 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#视频插值 # 可变形卷积 # 代价体 # 多尺度

PDWN：用于视频插值的金字塔可变形扭曲网络

陈志奇、王然、刘浩杰和王瑶

视频插值旨在根据过去帧和未来帧生成不存在的中间帧。许多最先进的方法通过估计已知帧之间的光流，然后生成中间帧与已知帧之间的反向光流来取得令人满意的结果。然而，这些方法通常受限于光流估计的不准确性，并需要额外的模型或信息来补偿光流估计误差。基于近年来可变形卷积（DConv）在视频插值中的应用进展，我们提出了一种轻量但有效的模型，称为金字塔可变形扭曲网络（PDWN）。PDWN采用金字塔结构，通过由粗到细的逐级优化，生成未知中间帧相对于已知帧的DConv偏移量。在每个金字塔层级上计算扭曲特征之间的代价体，以辅助偏移推断。在最精细尺度上，对两个扭曲帧进行自适应融合以生成中间帧。最后，上下文增强网络进一步增强最终输出的上下文细节。消融研究表明，由粗到细的偏移优化、代价体和DConv均有效。本方法在多个数据集上的精度优于或相当于最先进的模型，同时模型参数数量和推理时间显著少于先前模型。此外，我们提出了该框架的一个扩展版本，使用四个输入帧，相比仅使用两个输入帧可实现显著性能提升，而模型大小和推理时间仅有轻微增加。

索引词—视频插值，可变形卷积，深度学习

一、引言

视频插值[26]旨在生成给定的先前（或左）帧和后续（或右）帧之间的中间帧，广泛应用于视频编码[5]和视频帧率转换[5]。然而，自然视频包含复杂的外观和运动动态，例如不同的物体尺度、不同的视角、多样的运动模式、遮挡与去遮挡，使得逼真帧的插值成为一项重大挑战。

基于流的方法在视频插值中已被证明效果良好 [3, 4, 12, 16, 27]。许多最先进的方法首先使用光流估计器获取给定帧之间的光流，然后通过预设的运动假设（如线性运动[3, 12, 18]或二次运动[27]），分别推断缺失的中间帧与左右已知帧之间的光流。接着利用估计的光流对输入帧进行反向扭曲以获得中间帧。这类方法容易受到所采用的光流估计器以及运动假设误差带来的光流误差影响。因此，通常需要额外的光流校正网络[27]或附加信息（如深度[3]）来优化初始插值得到的光流，导致模型结构复杂。此外，训练此类模型需要真实光流或深度信息，而大量获取这些真实值成本较高。

尽管基于流的方法在视频插值中取得了巨大成功，但它们容易产生误差，并且在应对包含非线性运动、光照变化和遮挡的复杂动态场景时面临挑战。最近，可变形卷积（DConv）被应用于视频插值中以扭曲特征和帧[8, 14]。DConv为每个待插值像素相对于每个输入帧生成多个偏移量，并使用前一帧（或后一帧）中这些偏移像素的加权平均来预测目标像素。当DConv的滤波器大小为1x1且滤波器系数为1时，DConv偏移与光流相同。当滤波器大小大于1时，DConv执行多对一加权扭曲，因此偏移量可被视为多对一流光场。通常情况下，DConv偏移比单个光流更鲁棒。此外，DConv滤波器系数使模型能够生成更复杂的变换。然而，DConv增加的自由度使得模型难以训练。

为了缓解上述问题，我们提出了一种金字塔可变形扭曲网络（PDWN），以执行由粗到精的帧扭曲。由粗到精结构在光流估计中已被证明是有效的[11, 22, 24]。然而，在视频插值中，探索由粗到精策略的方法相对较少。Amersfoort和Shi[1]提出了一种多尺度生成对抗网络，以由粗到精的方式生成预测光流和合成帧。张等人[30]设计了一种递归残差金字塔结构，通过在金字塔层级间共享网络来优化光流。其他方法尽管使用了多尺度特征，但仅生成单阶段光流[3, 8, 16]。在我们的工作中，除了利用金字塔结构外，还结合了扭曲策略和成本体积的优势，以由粗到精的方式估计DConv偏移量。

所提出的网络采用金字塔结构，从每个输入帧中提取不同分辨率尺度的特征。在每一金字塔层级上，采用DConv将过去帧和未来帧的特征扭曲至中间帧，并在两个扭曲特征之间基于不同的附加偏移量构建并利用匹配代价体积来推断残差可变形卷积偏移量。通过使用获得的偏移量对特征进行扭曲，并将代价体积传递到下一个金字塔层级，网络从粗到细地细化估计的偏移量。我们证明，这种视频插值方法能够生成更加逼真的帧，而在训练过程中需要额外的信息，例如真实光流信息或深度。我们提出的网络大幅减少了模型参数数量和推理时间，同时相比最先进的模型实现了更好或相当的性能，如图1所示。此外，我们提出的方法可以轻松扩展到使用多输入帧，将输入帧数从两帧增加到四帧可显著提升插值结果。

示意图0

II. 相关工作

A. 视频插值

视频插值在文献中已被广泛研究 [3, 4, 8, 12, 16, 18, 20, 27, 28]。先前的方法可分为两类：基于核的方法和基于光流的方法。基于核的方法[14, 19,20]通过估计卷积核参数来生成中间帧。然而，基于核的方法在存在大运动的情况下通常表现不佳，除非使用非常大的滤波器核，并且会带来较大的计算负担。基于光流的方法通过估计光流来扭曲像素以合成目标帧。

Super SloMo[12]采用一个UNet来估计两个输入帧之间的光流，再用另一个UNet来修正线性插值的光流向量。超越线性运动假设，二次光流（QuaFlow）[27]采用PWC-Net[24]来估计输入帧之间的光流，然后通过一个UNet对二次插值光流进行优化。MEMC-Net[4]通过卷积神经网络估计运动向量和补偿滤波器。需要注意的是，QuaFlow需要四个输入帧来构建二次模型。MEMC未采用双线性插值，而是提出了一种基于光流和补偿滤波器的自适应扭曲层以减少模糊。在MEMC-Net的基础上，DAIN[3]使用由预训练沙漏结构[15]估计的深度信息来检测遮挡。与上述方法不同，Softmax Splatting[18]使用现成的光流估计器估计前向光流，并设计了一种可微方式实现前向扭曲。尽管基于光流的方法能够生成清晰帧，但不准确的光流估计常常导致严重伪影。与上述方法不同，我们的方法直接估计给定输入帧与未知中间帧之间的“光流”，而不假设其轨迹为线性、二次或具有其他参数形式。并且我们估计的是多对一“光流”，相较于单个光流更具鲁棒性。此外，我们以由粗到精的方式估计光流，以高效处理大运动。

B. 金字塔结构和成本体积

金字塔结构在光流估计中已被证明非常有效。Ilg等人[11]通过将多个UNet堆叠成一个大型模型（称为FlowNet2），实现了最先进的性能。为了减轻大模型带来的过拟合问题，SpyNet[22]将两个经典原理——金字塔结构和扭曲——引入深度学习。该方法为两帧图像分别构建空间金字塔网络，并在每一尺度上估计光流，反复将第二幅图像扭曲到第一幅图像，以减少两幅图像之间的运动。PWC-Net[24]进一步探索了精度与模型大小之间的权衡。不同于使用图像金字塔，PWC-Net构建了对阴影和光照变化具有不变性的特征金字塔。部分代价体用于表示与不同视差相关的匹配代价。受传统光流算法中金字塔能量最小化方法的启发，RRPN[30]设计了一种递归残差金字塔结构用于视频帧插值，通过在每个金字塔层级使用共享网络来优化光流。借鉴上述方法，我们也充分利用了光流的经典原理——金字塔结构、多尺度扭曲和成本体积。与RRPN不同的是，我们通过使用可变形卷积滤波器，将每一尺度的光流估计替换为多对一偏移图的估计，显著减少了因偶尔错误的光流估计而产生的伪影。此外，成本体积以非平凡的方式融入到我们的模型中。我们证明，两个已知帧的扭曲特征之间的成本体积可以为估计未知中间帧与已知前后帧之间的光流提供有用信息。

C. 可变形卷积

可变形卷积操作[6]最初被提出是为了克服卷积神经网络由于固定的滤波器支持配置所带来的局限性，并增强卷积神经网络的变换建模能力。它在每个像素处估计一组K偏移量和一个全局滤波器（非空间变化的）及其K系数，用于对K偏移像素进行处理。Zhu等人[31]通过引入空间自适应调制权重来调节与每个偏移量相关联的全局滤波器系数，进一步改进了DConv。因此，改进后的DConv能够对不同偏移像素施加不同的注意力。鉴于DConv可被视为多对一加权反向扭曲，FeFlow[8]使用DConv对来自两个已知帧的输入特征进行对齐，并融合对齐特征以合成中间帧。AdaCoF[14]构建了一个UNet来为每个目标像素估计局部滤波器权重和偏移量，以合成输出帧。我们发现，学习一个全局滤波器并结合空间变化的调制权重的方法，如[31]所述，优于直接估计局部自适应滤波器。不同于FeFlow和AdaCoF[14]在原始图像分辨率下直接估计DConv偏移量的方式，我们在由粗到细的逐级精化方式下进行偏移估计和特征对齐。具体而言，我们从较粗的尺度到更精细的尺度逐步优化DConv偏移量。此外，我们在每一尺度上利用由两个对齐特征计算得到的成本体积来提高偏移更新的准确性。

III. 方法

PDWN的结构如图2所示。给定两个输入帧I0和I2，我们的目标是通过使用DConv将输入帧的特征逐步扭曲到中间帧来合成中间帧I1。首先，我们使用共享特征提取器为每个输入帧构建特征金字塔。其次，我们生成每个输入帧与中间帧之间的DConv偏移量和相应的调制权重，然后将两个输入图像的特征扭曲至中间帧。该操作在特征金字塔的每一层进行，以细化运动估计。因此，所估计的DConv偏移量（可视为多对一流）从粗尺度级别逐步细化到精细级别。第三，在最精细分辨率级别（与输入帧相同），生成扭曲后的左右帧之间的插值权重图以处理遮挡。最后，沿用DAIN的后处理方案，我们采用上下文增强网络进一步优化插值帧，如图3所示。

示意图1 PDWN架构)

A. 共享特征金字塔编码器

使用多层卷积神经网络为输入帧{Fli | i ∈构建L-尺度的特征表示金字塔{0, 2}, l ∈{1, 2,…, L}。第一个尺度的特征Fi1具有与输入帧相同的空间分辨率。第l个尺度的特征Fil在水平和垂直方向上均相对于第(l − 1)个尺度的特征Fl−1i下采样了2倍。每个尺度包含两个卷积块，具体结构如表I所示。

B. 偏移估计模块

偏移估计器模块在PDWN的每个尺度中使用。它联合预测从未知中间帧到给定输入帧的DConv偏移量，以及每个偏移量对应的调制权重，以扭曲输入帧和特征至中间帧。

a) 具有空间变化调制系数的可变形扭曲

可变形卷积滤波器由全局滤波器w(j)、一组空间变化偏移f(j, x)以及调制系数m(j, x)定义，其中j表示滤波器支持域R中的第j个位置，x表示像素位置。此处的全局滤波器w(j)与常规卷积中的卷积滤波器相同，只是采样方式不规则。支持域R={(−1,−1)、(−1, 0)⋯⋯、(0, 1)、(1, 1)}在我们的模型中指定一个3 × 3滤波器。偏移量由水平和垂直位移定义，每个采样点都关联一个调制权重。因此，偏移张量和调制张量的通道维度分别为18和9。全局滤波器的大小为3 × 3。为了在多个尺度上使用DConv进行视频插值，我们在尺度l生成两组偏移量和调制系数，即fl1→i(j, x)ml1→i(j, x)，其中i= 0、2表示已知的前后帧，i= 1表示未知中间帧。全局滤波器权重wl(j)是学习得到的，并在训练后对每个尺度固定不变，且对已知输入特征共享。具体而言，我们按如下方式从第i帧的原始特征生成在尺度l、像素位置x处的扭曲后的特征：

$$
F˜li(x)= |R|
∑
j=1 wl (j)ml1→i(j, x)Fli(x+ R(j)+ fl1→i(j, x))(1)
$$

b) 朝向中间帧扭曲特征之间的代价体

成本体积的概念在光流方法[10, 24, 29]中被广泛使用，以在给定两帧之间每个像素的不同位移下提供匹配代价的显式表示。在用于光流估计的PWC方法中，代价体是在扭曲图像和固定图像之间构建的。通常，对于一帧中的每个像素x，计算该帧中位置x处的特征与另一帧中位移位置x+ d处特征的相关性，针对有限位移集合d ∈ Dk(x)进行计算。Dk(x)是像素x的方形邻域，邻域大小为k× k。然而，在我们的情况下，代价体是基于从每一已知帧到中间帧的估计偏移量（由较低尺度确定）在两组扭曲特征F˜l0和F˜l2之间计算的。该代价体表示左右扭曲特征中对应像素的特征在不同位移下的相关性。具体而言，给定F˜l0和F˜l2，基于以下方式构造成本体积Cl

$$
Cl (x1 , x 2) = 1 k 2
˜ Fl0(x1) T ˜ Fl2(x2) , x 2 ∈ Dk(x1) (2)
$$

其中x1和x2是像素索引。我们设置k= 9，包括在水平和垂直方向上从‐4到4的位移。因此，成本体积具有81个通道维度。

与其使用预定义方式计算匹配代价，还可以训练一个小型网络（作为整个网络的一部分学习）v(·），该网络接收两个扭曲特征并输出成本体积：

$$
Cl= v(F˜l0, F˜l2) (3)
$$

我们尝试了这两种方法，其中对于网络v(·)使用了一个包含两个卷积层的网络。

c) 多尺度偏移估计

如图2所示，我们从粗到细的尺度上估计中间帧与两个输入帧之间的偏移量，总共使用L个尺度（图2中的L= 3）。在每个尺度内生成DConv偏移，以逐步减小向中间帧扭曲的两组特征之间的距离。

在第l个尺度上，偏移估计块首先使用双线性插值器h(·)将较低尺度l+ 1上的估计的偏移fl+11→i和调制权重ml+11→i上采样到当前分辨率，得到

$$
ˆfl1→i = 2 ∗ h(fl+11→i) (4) mˆl1→i = h(ml+11→i) (5)
$$

然后根据Fli对原始特征进行扭曲，使其朝向中间帧，基于ˆfl1→i、ˆml1→i以及学习得到的全局滤波器wl，使用公式(1)生成扭曲特征F˜li。接着，偏移估计器使用公式(2)计算两个扭曲特征之间的成本体积Cl。接下来，它从Cl生成两组DConv偏移量残差∆fl1→i和两组调制权重ml1→i，基于Cl、ˆfl1→i、ˆml1→i以及原始特征Fli,以及由上一尺度的偏移估计器生成的特征Fl+1得到的上采样特征h(Fl+1)：

$$
∆fl1→i, ml1→i, fˆl1→i, h(Fl+1)), i= 0, 2 (6)
$$

其中g(·)表示一个三层卷积神经网络。最终的偏移量和调制权重通过以下方式获得

$$
fl1→i= fˆl1→i+∆fl1→i (7)
ml1→i= σ(ml1→i) (8) σ(t)= 1
1+ e−t
(9)
$$

其中σ(·)表示sigmoid激活函数。我们可以使用一个小型子网络（由三个卷积层组成）来估计偏移场，因为两个扭曲特征之间的运动通常较小。该过程重复进行，直到完成尺度1。

对于最粗尺度L，偏移估计器仅以该尺度的原始特征FL0和FL2作为输入，并直接生成fL1→i和mL1→i。

总之，每个尺度的偏移估计器需要生成两组偏移张量和两组调制张量，总通道维度为54。有关网络结构的具体信息，请参见表I。

C. 自适应帧融合

在尺度1下，使用估计的偏移量f11→i、调制权重m11→i和全局滤波器w1，我们将帧i向中间帧扭曲，生成两个中间帧的候选估计˜Ii, i ∈ 0,2。遮挡通常由物体运动引起。因此，为了从两个扭曲参考帧中选择有效像素，我们设计了一种融合方法

一个生成权重图α(x)的层，用于在位置x对两个变换后的帧进行平均。该层由一个三层卷积神经网络构成。参见表I，该网络以特征金字塔第一尺度的两个扭曲帧I˜0和I˜2以及两个扭曲特征F˜10和F˜12作为输入，并在输出层应用softmax激活生成权重图。在位置x，融合帧为

$$
I˜1(x)= α(x) ∗ I˜0(x)+(1 − α(x)) ∗ I˜2(x) (10)
$$

扭曲特征为估计权重图提供上下文信息。

D. 上下文增强网络

为了生成最终输出，我们构建了一个上下文增强网络，该网络以尺度1处的扭曲图像和特征作为输入，并输出未知真实中间帧与融合帧之间的残差图像。该网络由五个残差块组成，如图3所示。具体网络配置见表I。

示意图2

E. 扩展到四个输入帧

二次光流[27]通过从四个输入帧估计加速度信息，在运动轨迹估计上实现了改进。我们还扩展了我们的模型，以利用额外输入帧中的信息，并更准确地估计运动。我们的扩展模型采用四个输入帧（两个前帧和两个后帧）。在四个输入帧之间共享一个特征金字塔编码器，以生成四个特征金字塔。在偏移估计器中，我们在图2.(b)的第一卷积层中输入四个输入帧的四个特征图，而不是两个。这使得网络能够识别更长时间范围内的运动轨迹，从而产生更精确的偏移估计。在更高尺度上，我们仍然使用来自较低尺度的估计偏移量和调制权重，为两个最近的过去和未来帧生成扭曲后的特征图，并根据这两个扭曲特征确定成本体积。然后将成本体积与四个输入帧的原始特征以及偏移量和调制权重进行拼接，并送入下一尺度，以在下一尺度上优化偏移量和调制权重。需要注意的是，尽管输入包含四个帧，但网络仅生成两组偏移量，分别是中间帧与其左右相邻帧之间的偏移量。最终的插值帧是通过可变形卷积对这两个最近帧进行扭曲后，再进行自适应加权平均得到的。

F. 实现细节

a) 架构配置

本文评估的具有6个尺度和预定义匹配代价计算的PDWN架构配置，如表I所示。

b) 损失函数

L1范数已被证明在图像合成任务中能产生更少的模糊结果[7, 17]。因此，使用重建帧与真实帧之间的L1重建损失来训练模型：

$$
L= || I˜1 − I1||1 (11)
$$

我们还探索了用于训练的多尺度L1重建损失。具体而言，我们对输入帧和真实中间帧进行下采样。然后，将估计的偏移量和调制权重应用于下采样的输入图像，以生成每个尺度下的插值帧。最后，结合所有尺度下重建帧与真实帧之间的L1重建损失。通过实验我们发现，与仅在最精细尺度使用简单L1重建损失相比，多尺度损失并未提升最终结果。但我们观察到，多尺度损失可以在训练过程中加快收敛速度。为简化起见，本文报告的所有结果均采用在最精细尺度下的简单L1重建损失获得。

c) 训练数据集

我们使用包含51312个三元组的Vimeo‐90k训练集[28],来训练我们的模型。每个三元组包含3个连续帧，每帧的分辨率为448 ×256。采用水平翻转和时间反转作为数据增强方法。

d) 训练策略

我们对PDWN进行顺序训练。换句话说，我们首先在没有上下文增强网络的情况下训练PDWN80轮次，然后对整个系统进行端到端微调，再训练20轮次。我们使用Adam[13]，其中β1= 0.9和β2= 0.999来优化我们的模型。初始学习率设置为0.0002。小批量大小设置为20。遵循[21],中介绍的技术，我们还训练了PDWN的一个变体，称为PDWN++，该变体包含输入归一化、网络改进和自集成。具体而言，输入帧的每个颜色通道被独立归一化为零均值和单位方差。然后，我们将两层卷积替换为残差块。此外，在第1级扭曲帧的可变形卷积中的全局滤波器不仅在输入帧之间共享，而且在RGB颜色通道之间也共享。最后，在推理阶段应用7种变换，包括反转、翻转、镜像、反转和翻转，以及分别旋转90、180和270度，用于自集成。

IV. 结果

在本节中，我们首先介绍评估数据集。然后，我们进行消融研究以评估每个组件的贡献，并在两个输入帧上将所提出模型与最先进方法进行比较。最后，我们比较了使用两个与四个输入帧时我们模型的性能，并与其他使用四个输入帧的模型进行了对比。

A. 评估数据集和指标

1) 评估数据集

我们的模型在单个数据集（Vimeo‐90K训练集）上进行训练，但在多个数据集上进行验证，包括Vimeo‐90K[28]测试数据集（448 × 256）、UCF[16, 23]数据集（25 FPS，256 × 256）以及Middlebury数据集[2]（通常640 × 480）。Middlebury数据集包含两个子集：OTHER子集提供真实中间帧，而EVALUATION子集隐藏真实中间帧，只能通过将结果上传到基准测试网站进行评估。

2) 评估指标

我们报告PSNR、SSIM[25],和插值误差（IE），用于在多个具有不同分辨率和内容的数据集上进行模型比较。IE是平均绝对颜色误差。较高的PSNR或SSIM以及较低的IE表示更好的性能。

B. 消融研究

1) 光流与可变形卷积

为了分析所提出框架在不同图像扭曲技术下的表现，我们训练了两种变体方法，一种在每个尺度上使用光流，另一种使用DConv。为了将光流整合到我们的模型中，PDWN‐光流在每个金字塔层级生成并优化两组光流，以替代可变形偏移和调制权重。在PDWN‐光流中，特征和帧通过光流进行反向扭曲，以取代PDWN中的可变形卷积。如表II（第1节）所示，DConv在所有性能指标上均优于光流，这证明了DConv的有效性。在图5.(i)中，我们分别可视化了一个被遮挡点在过去帧和未来帧中的DConv采样点。我们观察到，所提出模型能够指向左帧中颜色与遮挡区域相似的位置。如上所述，DConv偏移可以被视为多对一向后扭曲流。多对一流中的冗余使模型更具鲁棒性。在图5.(e)和5.(g)中，我们通过以下方式可视化加权平均DConv偏移：

$$
¯ f1→i(x)=
∑
|R|
j=1(R(j)+ f1→i(j, x))m1→i(j, x) ∑
|R|
j =1 m1→i(j, x)
(12)
$$

2) 成本体积

为了分析使用代价体的有效性，我们考虑了本方法的三种变体。第一种模型仅将扭曲特征作为输入送入图2.(b)中偏移估计器的第一个卷积层。第二种模型首先计算两个扭曲特征之间的代价体，然后将代价体与原始特征拼接以估计DConv偏移残差。第三种模型用双层CNN替代代价体层，以学习两个扭曲特征之间的匹配代价。如表II（第2节）所示，在Vimeo‐90K数据集上，代价体在不增加参数的情况下带来了额外的性能提升。用学习得到的匹配代价替代预定义代价进一步提升了两个数据集上的结果。

3) 由粗到细的逐级精化方式

在所提出模型中，我们扭曲特征并在每个金字塔层级上以由粗到精的方式构建扭曲特征之间的匹配代价，以估计DConv偏移量residuals ∆fl1→i。该方法逐步减小两个输入帧之间的距离，在真实运动较大时尤为重要。我们通过训练另一个不包含由粗到精结构的模型变体，来研究该由粗到精结构的贡献。换句话说，该模型是一个具有6个空间尺度的UNet结构，接收两幅图像I0和I2作为输入，并直接在最精细尺度上输出DConv偏移和调制权重。我们在表II（第3节）中展示了定量结果，在图4中展示了定性结果。通过引入从粗到细的结构，性能显著提升，证明了我们逐级优化方法的有效性。

4) 尺度数量的影响

为了分析尺度数量对性能的影响，我们研究了三种不同的金字塔尺度（L= 4、5、6）。定量结果如表III所示，视觉对比见图5。我们发现，随着模型大小从1.7、3.4增加到6.6百万，Middlebury OTHER数据集上的峰值信噪比稳定地从36.63、36.85提升至37.00分贝。图5中的示例还表明，使用更多尺度的模型生成的结果更清晰。然而，在Vimeo‐90K数据集上的增益不如在Middlebury OTHER数据集上显著。这可能是因为Middlebury OTHER数据集的图像尺寸更大（因此以像素为单位的运动也更大）相较于Vimeo‐90K数据集。尽管每增加一个尺度，模型大小几乎翻倍，但运行时间仅略有增加，因为较低尺度的图像和特征具有更小的空间维度。

5) 自适应融合权重

图5.(j)展示了自适应混合权重图的一个示例。如第3.3节所述，α(x)= 0表示像素x来自I0被遮挡，而来自I1的像素x被完全信任。权重图中球周围的黑色区域表明，我们的模型能够通过从前一帧和后一帧中软性选择像素来检测并解决遮挡问题。

6) 上下文增强网络

为了分析上下文增强模块的贡献，我们训练了一个不带上下文增强的PDWN变体，并在表II中展示了结果。尽管DAIN通过添加上下文增强模块获得了显著提升（在Vimeo‐90k上以PSNR衡量提升0.27 dB）[3],但上下文增强网络对PDWN的贡献很小。添加上下文增强网络后，模型参数数量从740万增加到780万，使用NVIDIA RTX 8000显卡在Middlebury‐OTHER数据集中插值“DogDance”图像（640×480）时，运行时间从0.0082增加到0.0086。

C. 与最先进方法的比较

我们将我们的模型与最先进的视频插值模型进行了定量和定性比较，包括深度体素流（DVF）[16], SepConv[20], SepConv++[21]、SuperSloMo[12], MEMC‐Net*[4], DAIN[3], AdaCof[14],FeFlow[8], ，在三个不同数据集Vimeo‐90K、UCF和Middlebury数据集上进行。需要注意的是，我们仅与使用反向光流或DConv进行反向图像扭曲的方法进行比较。对于SepConv、AdaCof和FeFlow，我们下载了其已发布模型并在测试数据集上进行测试。对于DVF、SuperSloMo、MEMC‐Net*和DAIN，我们根据其已发布的插值数据计算结果。对于RRPN和SepConv++，我们直接引用其发表的数据。

如表IV所示，所提出模型在Vimeo‐90k数据集和Middlebury OTHER数据集上的性能优于所有方法，除了SepConv++。将类似技术应用于SepConv++后，PDWN++在Middlebury OTHER数据集上的峰值信噪比指标上超越SepConv++ 0.88分贝。与此同时，模型参数数量从780万增加到860万，运行时间增加了近8倍。在UCF数据集上，我们的模型达到了与最先进的方法相当的性能。需要注意的是，DAIN使用额外的深度信息来检测遮挡，以补偿线性插值光流中的误差。DAIN依赖于深度信息的准确性，即如果没有良好的（预训练）深度估计网络初始化，其模型无法学习到有意义的深度信息，因此表现较差比MEMC‐Net获得更高质量的结果。我们的模型在训练过程中不需要深度信息，但在Vimeo‐90K上仍比DAIN高出0.73 dB的峰值信噪比。FeFlow在每一层中使用多组DConv偏移以避免遮挡，并采用BDCN生成的边缘图[9]作为结构引导。与FeFlow相比，我们的模型在没有边缘图且仅使用单组DConv偏移的情况下，在Vimeo‐90K上表现更优，证明了以由粗到精方式使用DConv的优势。此外，我们的模型大小仅为FeFlow的5.8%。图6展示了来自Vimeo‐90k数据集的两个示例。值得注意的是，我们的模型在所有对比方法中生成了最清晰的结果。

表V展示了在Middlebury EVALUATION数据集上的对比结果。我们提出的方法优于最先进的方法。我们的模型在小运动或精细纹理的序列上定量表现良好，例如米奎恩、泰迪和鹅掌柴。对于具有复杂运动的视频，图7展示了可视化示例。在后院示例中，我们的模型在女孩脚尖处生成了更多细节，而其他方法则产生模糊结果。此外，我们的模型在橙色球边界的遮挡区域处理得更好。

D. 扩展到四个输入帧

使用Vimeo‐90K七元组数据集来训练和测试我们的扩展模型PDWN‐4，该模型以四个输入帧作为输入，并具有6个金字塔层级。我们使用第1、3、5和7帧来插值得到第4帧，并将每个序列中插值得到的第4帧与原始第4帧进行比较。我们将结果与我们的双输入模型进行比较PDWN‐2和包括FeFlow在内的最先进的方法[8]以及QuaFlow[27]。PDWN‐2在Vimeo‐90K三元组数据集上进行预训练，并在Vimeo‐90K七元组数据集上进行微调。结果见表VI。图8展示了在Vimeo‐90K七元组测试数据集上的可视化结果。定量和视觉评估均表明，使用四个输入帧的扩展PDWN相较于使用两个输入帧可显著提高插值精度，同时仅带来模型大小和运行时间的适度增加。此外，PDWN‐2和PDWN‐4的结果均优于使用四个输入帧的QuaFlow。

V. 结论

在本研究中，我们提出了一种金字塔视频插帧模型，该模型通过估计中间帧到左右输入帧的带有调制图的多对一流光场来实现。我们表明，与使用对齐特征计算得到的成本体积相比，偏移估计器能够从中受益。直接使用对齐特征。我们的模型在模型大小上显著更小，推理时间也远少于最先进的模型，同时实现了更好或相当的插值精度。此外，我们的模型在训练时不需要依赖额外的信息（例如真实深度信息或光流）。而且，使用两个输入帧的我们的模型可以轻松扩展为使用四个输入帧，仅需略微增加模型大小和推理时间，而扩展后的模型显著提升了插值精度。

最近的一项工作[18],提出了一种使用前向光流的可微分前向扭曲操作，以直接处理遮挡和非遮挡区域，其性能优于所有基于后向光流的方法。这为视频插值展示了有希望的方向。在未来的工作中，我们还将探索如何将前向扭曲与从粗到精的结构相结合。此外，我们将探索PDWN在视频编码中的集成，其中编码器可以每隔一帧进行编码；被跳过的帧将由PDWN方法插值，并且插值误差图像可以被额外编码。