论文链接:Burst Denoising via Temporally Shifted Wavelet Transforms | SpringerLink
论文来源:ECCV2020
作者团队:facebook
Abstract.
近年来,移动摄影取得了长足的进步。然而,微光成像仍然是一个挑战。长时间曝光可以提高信噪比(SNR),但在捕捉动态场景时可能会出现不需要的运动模糊。因此,成像管道通常依靠计算摄影通过融合多个短曝光来提高信噪比。最近的基于深度网络的方法已经证明,通过以复杂的方式融合这些曝光,可以产生令人愉悦的视觉效果,但通常需要更高的计算成本。
我们提出了一种端到端可训练的突发去噪管道,该管道联合捕获来自小波变换的高分辨率和高频深度特征。在我们的模型中,高频子带特征保留了宝贵的局部细节以提高最终的感知质量,而低频子带特征携带了结构信息以实现可靠的重建和最终的客观质量。该模型设计用于通过时间特征移动适应可变长度突发捕获,同时仅产生很少的计算开销,并进一步使用真实噪声模型进行训练,以推广到真实环境。使用这些技术,我们的方法在感知质量上达到了最先进的性能,同时速度快了一个数量级。
1 Introduction
balabala
许多最近提出的突发去噪技术采用深度学习来改进最先进的技术[7–12]。但是,对于潜在的部署(尤其是在边缘设备上),它们通常效率不够。随后,他们通常在不现实的噪声模型上进行训练和评估,这些模型通常不考虑实际噪声的信号依赖性和空间相关性[13]。
在本文中,我们提出了一种更实用的端到端可训练突发去噪管道,该管道在产生令人愉悦的视觉效果的同时显著快于最新技术。具体来说,我们从一个2D模型开始,该模型能够对每个突发帧的高频和高分辨率特征进行编码,然后将其扩展到伪3D模型,以处理任意长度的突发帧序列,如第3节所示。我们提出的二维模型利用了高分辨率和高频深度特征,并通过真实的噪声建模进行训练。其动机是,高分辨率特征在最近的文献[14–16]中已经得到验证,对于在表示编码期间保存精细和详细的信息非常有利,这对于图像恢复任务,尤其是去噪任务至关重要。此外,由于多尺度高分辨率体系结构的隐式分解可能不够,因此需要显式特征分解来保证局部细节的保留。在构建了2D模型之后,它进一步扩展到使用通道时间特征偏移处理变长的突发帧,从而在有限的开销下通过所有突发帧使用时间线索。
要使任何突发去噪解决方案切实可行,它需要解决几个主要挑战。首先,它需要高效,特别是在考虑资源受限的设备时。其次,它需要具有灵活性和可伸缩性,能够处理任意长度的突发帧。第三,它不仅需要追求客观质量,还需要提高感知质量,并平衡两者之间的权衡,如[17]所示。我们提出的方法是根据解决所有这些挑战的准则设计的。
我们的主要贡献总结如下:
性能:多帧去噪任务对效率的要求非常高,通常需要终端和边缘设备的实时效率。我们提出了一种新颖的端到端可训练的深卷积突发去噪框架,能够在定性和定量上实现最先进的性能。此外,减少的计算需求证明了我们模型的有效性。
特征:据我们所知,这是首次在去噪任务中提出联合高分辨率和高频特征提取与融合的工作。进行了系统的消融研究和实验,以验证提取的特征对突发去噪的有效性。
灵活性:我们的模型可用于单图像(照片)和多图像输入(突发捕获或视频)场景。对于多图像输入场景,它可以以双向脱机方式(突发捕获)或单向联机方式(实时视频流)工作。
3 Methodology
3.1 Overview
我们在这项工作中的重点是从2N个噪声帧({X0,…,X2N)的突发中生成单个高质量的干净图像−1} )由手持摄像机拍摄。我们认为XN或 XN + 1,即中心帧,作为参考帧。我们将重点放在8位sRGB相机输出图像作为输入,而不是raw图像,因为大多数手机不保留原始照片(即使在支持的情况下)。为了更实用,我们开发了我们的模型来处理由成像管道预处理的图像。这是更具挑战性的,因为噪声模型通常会因不同的操作(如去噪、色调映射和去噪)而发生显著变化。
根据我们的突发去噪任务的目标,我们设计了一种新的基于深度学习的管道来处理噪声突发。在下面的小节中,我们将介绍我们的网络结构、高分辨率和高频特征提取、时间特征融合机制、模型的自适应和条件版本以及训练目标。以单向逐帧处理方式为例,我们提出的模型的体系结构如图2所示。整个流程从二维模型开始,从每个突发帧中提取高频和高分辨率特征,并通过时间特征移位扩展到伪三维版本。我们探讨了二维特征提取和三维特征聚合的不同选项,并将在以下小节中详细介绍。具体而言,第3.2节展示了维持高分辨率特征和明确分离高频特征的设计,第3.3节进一步展示了沿时间维度的不同特征融合机制。
3.2 Features Matter in Burst Denoising
我们首先介绍如何建立二维模型,从每一帧中提取高分辨率和高频特征。如果需要,该二维模型可以直接用于单个图像去噪任务。
High-Resolution Features. 最近,针对各种计算机视觉任务提出了高到低卷积和动态融合技术[14–16]。这有助于在整个卷积特征提取过程中保持高分辨率表示。我们的2D模型建立在HRNet[15]的基础上,HRNet是最近提出的用于高分辨率特征编码的多分辨率卷积和融合体系结构之一。我们的动机是,高分辨率特征有望提高生成的最佳去噪帧的客观质量,同时保持局部细节。我们的2D网络结构如下图所示,包含3个并行流。
其中, 是第s阶段的子流,r代表分辨率索引。第一个数据流r=1。索引为r的分辨率是第一个数据流分辨率的
,最高分辨率的特征沿顶部流
保留,并最终与其他流融合。
High-Frequency Features. 除保持高分辨率特征外,为了获得高的视觉质量,去噪模型应该在去除噪声的同时可靠地恢复给定噪声帧的结构信息。尽管上述多尺度结构[14–16]通常被设计为隐式地将特征分解为不同的频率,但我们发现显式分解也有利于多帧去噪任务。(见第5节)。
受卷积网络小波池化和unpooling的最新研究[37,38]的启发,我们建议在多尺度学习中结合小波分解和高分辨率特征分支。也就是说,将保持的高分辨率特征显式分解到不同的频带,并在通过小波unpooling融合之前进行动态处理。由于之前提出了几种流行的小波设计,我们最终选择了Haar小波来有效地将原始特征分割成捕获不同频带的通道。它可以更好地去噪和重建相应的信号。特别是在我们的模型中,Haar小波池有四个核,,其中低通和高通滤波器是
因此,与普通池化操作不同,Haar小波池化的输出有四个通道。在这里,低通滤波器捕获平滑的表面和纹理,而高通滤波器提取垂直、水平和对角边缘信息。为了简单起见,我们将每个内核的输出分别表示为LL、LH、HL和HH。
小波池的一个有利特性是,可以通过镜像原始信号的操作来重构原始信号;如补充文件中详细说明的,小波unpooling。更准确地说,小波unpooling可以通过执行分量式转置卷积来完全恢复原始信号。利用这个特性,我们提出的模型可以以最小的信息损失和噪声放大重建图像。相比之下,最大池化并没有精确的逆运算,因此在以前的工作中,编码器-解码器类似的网络很难完全恢复信号。总之,我们的最终2D模型采用了高分辨率和高频设计,能够逐帧去噪,该模型将进一步扩展为(伪)3D模型,用于多帧突发去噪,如第3.3节所述。
3.3 Temporal Fusion of Deep Features
在本小节中,我们将介绍用于聚合所有突发帧信息的不同时间特征融合机制,包括传统的3D卷积和两种伪3D机制,时间最大池和时间特征移位。最后的模型采用时间特征移动作为特征融合机制。
3D Convolution. 对于多帧特征提取,通常存在两种3D卷积方法,即一次将所有帧送入网络(脱机模式),或以单向滑动窗口方式(联机模式)将一定数量的帧(例如3或5)送入网络。对于突发去噪,3D网络聚合所有帧并联合学习时空特征。然而,3D CNN在计算上代价非常昂贵[40],而且更容易过度拟合。因此,我们使用3D卷积作为我们的特征融合机制的一个版本,并进一步研究了消融研究中的两种伪3D学习机制。
Temporal Max-Pooling. 与相对计算密集的真实3D卷积相比,伪3D卷积策略(如时间最大化池化)最近被提出作为处理特征融合的替代方案。Zaheer等人[41]和Qi等人[42]表明,任何将无序集映射为正则向量(或图像)的函数都可以通过神经网络进行近似。Aittala等人[9]成功地将这一想法应用于突发去模糊任务。在我们的模型的这个版本中,集合的单个输入帧首先由相同的神经网络(具有绑定权重)分别处理,产生每个特征的向量(或图像)。然后,通过对称操作,通过计算成员中每个特征的平均值或最大值,将特征汇集在一起。该方案为突发中的各个帧提供了一种原则性的机制,以贡献它们的局部特征,从而捕获锐利图像中可能的内容。
Temporal Feature Shifting. 作为3D卷积方法的另一种替代方法,时间移位模块(TSM)[43]已成功用于视频理解,并被移植为我们的突发去噪模型的特征融合机制。具体地说,给定突发图像序列B,我们按顺序获取所有2N帧{X0,…,X2N−1} 。前面提到的2D CNN基线模型将单独处理每个帧,而不进行时间建模,并且对输出结果进行平均以给出最终的突发去噪预测。相比之下,TSM模块的参数和计算时间成本与2D模型相同。在推理过程中,帧是独立处理的,类似于2D cnn。然后在每个剩余块中插入TSM(类似于时间最大池),从而在无计算开销的情况下实现时间信息融合。在我们的最终模型中,TSM沿时间维度移动了一小部分通道(通常为1/8),从而使时间乘法累积能够在通道的2D卷积内计算,而不是使用显式时间维度。时间偏移可以是单向的,也可以是双向的。与时间最大池相比,TSM可以保留信息顺序。这允许模型处理连续突发帧中出现的场景运动和对象运动。对于每个插入的时间移位模块,时间感受野将被放大2,就好像在时间维度上运行内核大小为3的卷积。因此,最终的集成模型有一个非常大的时间感受野来进行高度复杂的时间建模。
利用单向时间特征变换对突发图像进行去噪具有一些独特的优点。首先,对于每一帧,我们只需要替换和缓存1/8的特征,而不需要任何额外的计算。因此,每帧预测的延迟几乎与2D CNN基线相同。3D卷积和时间最大池方法都需要将所有帧一次送入网络进行推理,这导致延迟增加。此外,时间特征移动能够在所有级别动态进行时间融合,提高模型对场景运动的鲁棒性。相比之下,大多数在线方法只允许在特征提取后进行后期时间融合。
3.4 Loss Function
对于线性空间中的地面真值参考图像Y和去噪帧ˆY,我们直接使用像素强度和梯度强度的L1loss来训练提议的去噪网络:
它试图使所有去噪估计的平均值接近基本真值Y,λ1+λ2=1(在我们的实验中都设置为常数0.5)。为了与以前的方法进行公平比较,我们在所提出的模型中没有利用任何对抗性训练机制或感知损失来支持感知度量。[8] 建议在多帧训练中添加退火损耗,以避免在训练中收敛到不希望的局部极小值,但我们最终没有使用,因为我们在实验中没有注意到显著差异。