Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring

最新推荐文章于 2025-07-18 20:44:39 发布

原创最新推荐文章于 2025-07-18 20:44:39 发布 · 2.1k 阅读

CC 4.0 BY-SA版权

Seungjun Nah, Tae Hyun Kim, Kyoung Mu Lee. Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring[J]. 2016:257-265.点击打开链接

摘要：

对于普通动态场景的非均匀盲去模糊一直是计算机视觉领域一个困难的问题，因为模糊的产生不仅来自于多个物体的运动，同时也来自于相机的抖动，场景深度的变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法简单的假设这些模糊核是部分均匀或者局部线性的。而近年来的基于机器学习的方法也是依赖于根据这种假设而人工合成的模糊数据集。这使得传统的去模糊方法对于去除模糊核难以估计或参数化（例如物体运动边界）的模糊无能为力。在本文中，我们提出了一个多尺度的卷积神经网络通过端到端的方式从各种不同原因的模糊中复原清晰图像。同时，我们用了多尺度的损失函数来模拟传统的从粗糙到细致的复原方式。此外我们还提出了一个新的大尺度数据集来提供成对的真实模糊图像和相对的用高速相机采集的原始清晰图像。利用在该数据集上训练本文提出的模型，我们以经验为主的证明了我们的算法在质量和数量上都达到了目前动态场景去模糊的最佳表现。

1.介绍

   以前的方法都要估计模糊核，而对于非均匀的运动模糊，模糊核估计困难。本文算法不需要估计模糊核，直接实现端到端的图像去模糊。模型为多尺度模型，损失函数为多尺度函数，并用对抗损失提升。数据集通过模拟相机的图像处理过程产生，而非假设具体的运动或设计复杂模糊核。

 2.模糊数据集

 由于相机的模糊来源于曝光时接收光线的累积，所以模糊过程可用累积高速相机采集到的多帧图像来模拟。

 左式中，S(t)是时刻t采集到的图像，T是曝光时间。右式中，M是帧数，S[i]表示第i帧。

 3.提出的算法

 3.1模型结构

 残差网络去除了相加后的relu层和BN层。每一个尺度都是残差网络的堆叠。共3个尺度。训练时，patch大小为{256，128，64}。所有卷积层核大小都为5。每一个尺度都是1层卷积（从图片提取特征）+19个残差块+1层卷积（重构输出图片）=40层卷积层。3个尺度共有120层卷积层。这也可以极大的增加对图片的感受野。层与层之间通过upconvolution而非upsampling扩大尺寸，然后通过串接连接在一起。

 3.2数据集

   2103对720p图像作为训练，1111对作为测试。数据增强：几何上随机水平翻转、垂直翻转、旋转90度；颜色上，RGB三通道随机排列，HSV空间饱和度随机乘以[0.5,1.5]；添加高斯噪声，噪声标准差服从N(0,(2/255)^2)分布，范围在[0,1]之间；最后将像素值减去0.5,控制在[-0.5,0.5]中间。

 3.3损失函数

 多尺度损失：

 对抗损失：

 对抗网络结构：

总损失为两者以1：0.0001加权。

3.4训练细节

优化器：ADAM；batch size:2；学习率：从5*10e-5开始，每3*10e5次迭代减小10倍，共9*10e5次迭代。

4.实验结果

 比较了1/2/3个尺度，2个尺度时PSNR和SSIM最高，3个尺度时MSSIM最高，且速度最快。