摘要:一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题,因为模糊是由相机抖动,场景深度以及多个对象运动引起的。为了消除这些复杂的运动模糊,常规的基于能量优化的方法仅依赖于简单假设,使模糊核部分均匀或局部线性。此外,最近基于机器学习的方法也取决于在这些假设下产生的合成模糊数据集。这使得传统的去模糊方法不能去除模糊核难以近似或参数化(例如物体运动边界)的模糊。在这项工作中,我们提出了一种多尺度卷积神经网络,以端对端的方式恢复由各种原因引起的模糊图像。此外,我们提出了多尺度损耗函数,模拟传统的从粗到精的多尺度估计方法。 此外,我们提出了一个新的大规模数据集,提供逼真的模糊图像和其对应的由高速摄像机获得的真实清晰图像。通过该数据集对提出的模型进行训练,实验结果证明,我们的方法不仅在质量上而且在数量上都使得动态场景去模糊获得了良好的性能。
1.引言
相机抖动和物体的快速运动使得图像质量降低,产生模糊图像。 此外,深度变化、运动边界遮挡等各种原因使模糊更加复杂。单幅图像去模糊问题是从给定的模糊图像中恢复出清晰图像。早期的研究集中在消除由简单的平移或旋转相机运动引起的模糊。最近许多学者试图去除由深度变化,相机抖动和物体运动引起的非不均匀模糊。大多数这些方法都是基于以下模糊模型。
其中B,S和n分别表示模糊图像,潜在清晰图像和噪声。K是一个大的稀疏矩阵,每行都包含一个作用于S的局部模糊核,以产生一个模糊像素。在实践中,模糊核通常是是未知的。因此,给定模糊图像B时,盲去模糊方法尝试同时估计潜在清晰图像S和模糊核K。
为每个像素寻找模糊核是严重不适的问题。因此,一些方法试图通过对模糊来源的简单假设来参数化模糊模型。在[29,10]中,他们假设模糊仅由3D相机运动引起。然而,在动态场景中,由于存在多个运动对象以及相机运动,因此内核估计更具挑战性。因此,Kim等人[14]提出了一种动态场景去模糊方法,将分割图像和去除非均匀模糊图像结合,允许对分割的区域进行复杂的(非线性)核估计。此外,Kim和Lee [15]将模糊核逼近为局部线性,并提出了一种同时估计清晰图像和局部线性运动的方法。然而,这些模糊核近似仍然不准确,特别是在突然运动不连续和遮挡的情况下。注意,这种错误的核估计直接影响清晰图像的质量,导致不期望的振铃效应。
近来,CNN(卷积神经网络)已经应用于许多计算机视觉问题,其中在去模糊问题[30,25,27,1]中有着良好的效果。 由于没有成对的真实模糊图像和对应的清晰图像可用于监督学习,它们通常使用由清晰图像卷积模糊核而产生的模糊图像。 在[30,25,1]中,使用具有均匀模糊核的合成模糊图像进行训练。 而在[27]中,分类CNN被训练来估计局部线性模糊核。 因此,基于CNN的模型仅适用于几种特定类型的模糊,并且对空间变化模糊具有一定的限制。
因此,现有的方法在实践中使用时仍然存在很多问题,由于使用简单而不切实际的模糊核模型引起的。因此,为了解决这些问题,在这项工作中,我们提出了一种新颖的端到端学习方法,用于动态场景去模糊问题。
首先,我们提出一种多尺度的CNN直接恢复清晰图像,不考虑任何限制的模糊核模型。与其他方法不同,我们的方法不会估计显式的模糊核。因此,我们的方法没有从核估计误差中产生的振铃。特别地,多尺度架构被设计为模拟常规的由粗到细的优化方法。其次,我们采用多尺度损耗训练由粗到细的架构,大大提高了收敛性。此外,我们通过采取对抗损失进一步改善结果[9]。第三,我们提出一个新的逼真的模糊图像与对应的清晰图像数据集。为了获得核无模型的训练数据集,我们采用[17]中介绍的数据集获取方法。由于模糊过程可以被模拟为相机快门打开时[17,21,16]一系列清晰图像的集合,我们用高速摄像机捕获了动态场景的一系列清晰的帧,通过考虑伽马校正对它们进行平均,以产生模糊图像。
通过对提出的数据集的训练和适当的增加,我们的模型可以处理一般的局部模糊核。 由于损失项优化的结果接近于真实数据,它甚至恢复了模糊核非常复杂的遮挡区域,如图1所示。 我们用数百万图像补丁对我们的模型进行了培训,并在动态场景去模糊中取得了显着的改进。 大量实验结果表明,提出的方法在定性和定量性能评估中远优于最先进的动态场景去模糊方法。
1.1相关工作
有一些方法使用CNN进行图像去模糊[30,27, 25,1].
徐等 [30]提出了一种图像去卷积