Abstract
标准视频帧插值方法首先估计输入帧之间的光流,然后合成运动引导的中间帧。最近的方法通过将输入帧与空间自适应内核进行卷积来将这两个步骤合并为单个卷积过程,这些内核同时解决了运动和重新采样问题。这些方法需要大内核来处理大运动,这限制了由于大内存需求而可以一次估计其内核的像素数量。为了解决这个问题,本文将帧插值作为使用一对一维内核的输入帧的局部可分卷积。与常规2D内核相比,1D内核需要的参数估计要少得多。我们的方法开发了一个深度完全卷积神经网络,它采用两个输入帧并同时估计所有像素对的一维核函数。由于我们的方法能够一次估计内核并合成整个视频帧,因此它可以考虑将听觉损失纳入训练神经网络来产生可视的帧。这种深度神经网络是使用广泛可用的视频数据进行端对端培训的,无需任何人工注释。定性和定量实验都表明,我们的方法为高质量视频帧插值提供了一个实用的解决方案。
1. Introduction
传统的视频帧插值方法估计输入帧之间的光流,并合成由光流引导的中间帧。然而,它们的性能在很大程度上取决于光流的质量,这对于在具有遮挡,模糊和突然亮度变化的区域中准确估计具有挑战性。
基于观察到帧插值的最终目的是产生高质量的视频帧,而光流估计只是一个中间步骤,最近的方法是制定帧插值或插值作为卷积过程。具体而言,他们为每个输出像素估计空间自适应卷积核,并将内核与输入帧进行卷积以生成新帧。卷积核联合解释了传统帧插值方法中涉及的两个独立的运动估计和重新采样步骤。为了处理大的运动,需要大的内核。例如,Niklaus等人采用神经网络为每个输出像素输出两个41×41内核[36]。要为1080p视频帧中的所有像素生成内核,仅输出内核就需要26 GB的内存。内存需求随着内核大小的增加而二次增加,因此限制了要处理的最大运动。鉴于这种限制,Niklaus等人训练了一个神经网络来逐个像素输出内核。
本文提出了一种用于视频帧插值的空间自适应可分离调整方法。我们的工作灵感来自于使用可分离滤波器来为其他计算机视觉任务逼近完整的2D滤波器,如图像结构提取[41]。对于帧合成,需要两个2D卷积核来生成输出像素。我们的方法使用一对一维的内核,一个水平和一个垂直来逼近每一个。这样,一个n×n卷积核可以仅使用2n个变量进行编码。这使得我们的方法可以采用一个完全神经网络,它将两个视频帧作为输入,并一次为所有输出像素生成可分离的内核。对于1080p视频帧,使用大约41×41的可分离内核仅需要1.27 GB而不是26 GB的内存。由于我们的方法能够生成全帧输出,因此我们可以合并感知损失函数[11,22,27,42,65]以进一步提高插值结果的视觉质量,如图1所示。
我们的深层神经网络是完全卷积的,可以使用广泛可用的视频数据端对端地进行训练,而不需要任何难以获取的元数据(如光流)。我们的实验表明,我们的方法能够在代表性的和定量的方面比较代表性的现代插值方法在代表具有挑战性的场景中的优势,并为高质量视频帧插值提供了一个实用的解决方案。
2. Related Work
我们的研究受到深度学习成功应用于光流估计[2,12,16,19,50,51,52],艺术风格转换[17,22,28]和图像增强[6, 9,10,46,47,55,57,62,65]。我们的工作属于采用深度神经网络进行视图合成的研究类别。这些方法中的一些方法为输入图像中的面部和椅子等物体提供了不可见的视角,而不是复杂的真实世界场景[13,26,49,59]。 Flynn等人开发了一种方法,通过将输入图像投影到多个深度平面上并结合这些深度平面来创建一种新颖的视图[15]。 Kalantari等人提出了一种用于光场成像的视图扩展方法,该方法使用两个连续的卷积神经网络来对视图插值的视差和颜色估计步骤进行建模,并同时训练这两个网络[23]。谢等人。开发了一种神经网络,它可以合成单眼视频的额外视图,将其转换为立体视频[54]。
最近,周等人。开发了一种方法,采用卷积神经网络来估计外观流量,然后使用这种估计来扭曲输入像素以创建新视图[64]。他们的方法可以扭曲单独的输入帧并将它们混合在一起以在输入帧之间产生帧。深层体素