摘要
基于模型的优化方法和判别式学习方法一直是解决低级视觉中各种反问题的两种主要策略。这两种方法各有优缺点:
基于模型的优化方法:这种方法对于处理不同的逆问题是灵活的,但为了达到良好的性能,通常需要复杂的先验信息,这会耗费大量时间。
判别式学习方法:这种方法检测速度快,但其应用范围受限于特定任务。
最近的研究表明,通过可变分裂技术,可以将降噪器优先插入作为基于模型的优化方法的一部分,以解决其他反问题(例如,去模糊)。当通过判别式学习获得降噪器时,这种整合带来了显著的优势。然而,与快速鉴别降噪器之前的整合研究仍然缺乏。
为此,本文旨在训练一组快速有效的CNN(卷积神经网络)降噪器,并将其集成到基于模型的优化方法中以解决其他反问题。实验结果表明,所学习的一套降噪器不仅可以实现有希望的高斯降噪结果,而且可以用作各种低级视觉应用提供良好性能的先验信息。
基于模型的优化方法是一种处理问题的方式,它依赖于对现实世界现象的数学或计算描述,即“模型”,来预测结果和优化解决方案。在图像处理和计算机视觉领域中,基于模型的方法意味着我们先假设一些关于图像应该是什么样子的知识(比如图像的平滑度、边缘的存在等),然后使用这些假设作为指导来解决问题,如去除噪声、修复损坏的部分或者提高分辨率。
判别式学习方法是一种机器学习策略,它直接学习从输入到输出的映射。换句话说,它专注于学习一个模型,该模型可以直接预测给定输入(如图像、声音片段等)对应的正确输出(如标签、分类结果或数值)。这种方法通常用于分类、回归和结构化预测任务。
可变分裂技术是一种数学和优化领域的技术,它将复杂的问题分解成更小、更容易处理的部分。
1 引言
图像重建(IR)在各种 low-level 视觉应用中具有高度实用价值一直是一个长期存在的问题。一般而言,图像重建的目的是从其退化的观察值 y = Hx + v 中恢复潜在的干净图像 x,其中H 是退化矩阵,v 是标准偏差 σ 的加性高斯白噪声。通过指定不同的降级矩阵,可以相应地获得不同的 IR 任务。当H是单位矩阵时,三个经典的 IR 任务是图像降噪,H 是模糊算子时的图像去模糊,H 是模糊和降采样的合成算子时的图像超分辨率。
然而,牺牲灵活性,判别式学习方法不仅可以享受快速的测试速度,而且由于联合优化和端到端训练而倾向于提供有前途的性能。相反,基于模型的优化方法通常需要耗费时间以及性能良好的复杂先验。因此,这两种方法各有优缺点,因此研究它们的综合利用各自的优点是有吸引力的。幸运的是,借助变量切分技术,如交替方向乘法器(ADMM)方法和半二次切分方法),可以分别处理保真度项和正则项,特别是正则化项只对应一个降噪问题。因此,这可以将任何判别式降噪集成到基于模型的优化方法中。然而,据我们所知,与判别式降噪整合的研究仍然缺乏。
本文旨在训练一组快速有效的判别式降噪,并将其集成到基于模型的优化方法中,以解决其他逆问题。我们不是学习MAP推理引导的判别模型,而是采用纯卷积神经网络(CNN)来学习降噪,以便利用CNN的最新进展以及GPU计算的优点。特别是在网络设计或训练中采用了几种CNN技术,包括整流器线性单元(ReLU),批量归一化,Adam ,扩张卷积。除了为图像降噪提供良好性能之外,学习过的一套降噪器被插入基于模型的优化方法中以解决各种逆问题。
这项工作的贡献总结如下:
• 我们训练了一套快速有效的CNN降噪器。利用变量切分技术,强大的降噪器可以将很强的图像先验带入基于模型的优化方法。
• 将已学习的一套CNN降噪器作为基于模型的优化方法的模块化部分进行插入,以处理其他逆问题。对经典IR问题(包括去模糊和超分辨率)进行的大量实验证明了集成灵活的基于模型的优化方法和基于CNN的快速识别学习方法的优点。
2 背景
没懂先不写了~
3 学习CNN降噪先验
3.1 为什么选择CNN降噪?
现有的用于解决其他逆问题的基于模型的优化方法的降噪先验包括总变差(TV),高斯混合模型(GMM),K-SVD ,非局部均值和 BM3D 。这种降噪先验有它们各自的缺点。例如,总变差(TV)会导致水彩效应;K-SVD降噪先验承受高计算负担;如果图像没有表现出自相似性,则非局部均值和BM3D降噪先验可能会使不规则结构过度平滑。因此,可以有效实现的强降噪先验是非常需要的。
无论速度和性能如何,彩色图像先验或降噪也是需要考虑的关键因素。这是因为现代相机采集的或在互联网上传输的大多数图像都是RGB格式。由于不同颜色通道之间的相关性,已经认识到联合处理颜色通道往往比独立处理每个颜色通道产生更好的性能。然而,现有的方法主要集中在对灰度图像先验进行建模,并且只有少数工作集中在对彩色图像先验进行建模。也许最成功的彩色图像先验建模方法是CBM3D 。它首先通过手工设计的线性变换将图像解相关为亮度色差色彩空间,然后在每个变换的色彩通道中应用灰色BM3D方法。CBM3D有望用于彩色图像去噪,该方法已经指出,由此产生的变换后的亮度-色度彩色通道仍然保持一定的相关性,最好共同处理RGB通道。因此,不使用手动设计,而是使用判别式学习方法自动学习底层彩色图像先验,将是一个不错的选择。
CBM3D是一种有效的彩色图像去噪方法。CBM3D方法通过线性变换将图像转换到亮度色差色彩空间(如YUV或YCbCr),但即使经过这种变换,亮度和色度通道之间仍然存在一定的相关性。由于亮度和色度通道之间的相关性,建议在去噪过程中同时处理RGB通道,而不是单独处理每个通道。
考虑速度,性能和有差别的彩色图像先验的建模,我们选择深度CNN来学习判别式降噪。使用CNN的原因有四个。首先,由于GPU的并行计算能力,CNN的推理非常有效。其次,CNN通过很深的结构展现出强大的先验建模能力。第三,CNN可以利用外部先验和内部先验,这是许多现有的诸如BM3D之类的降噪方法的内部先验的补充。换句话说,与BM3D的组合有望改善性能。第四,过去几年在CNN的训练和设计方面取得了很大的进展,我们可以利用这些进展来促进判别式学习。
先验建模能力
先验建模能力指的是模型能够将关于数据分布或任务的先前知识整合到其决策过程中。在图像处理中,这意味着模型可以使用对自然图像特性的理解来指导其处理过程,例如平滑度、边缘的存在性等。这种能力帮助模型更准确地预测或恢复图像内容,特别是在面对噪声或其他退化时。例子:卷积神经网络(CNN)通过多层结构自动学习图像中的特征,如边缘、纹理等,并且能够根据这些特征构建出一个合理的图像表示。这就是一种先验建模能力,因为它基于对图像通常包含哪些类型的模式的理解。
内部先验
内部先验是指那些从数据本身或者从特定任务中直接获得的知识或假设。对于图像处理来说,内部先验可能包括图像的基本物理属性,比如颜色通道之间的相关性、亮度与对比度的关系等。例子:BM3D(Block-Matching and 3D
filtering)是一种经典的图像去噪算法,它依赖于图像块之间的相似性和局部自相似性作为内部先验。即认为图像中存在重复的结构,可以通过匹配类似的图像块并对其进行协同过滤来减少噪声。
外部先验
外部先验则是指那些不直接来自当前数据集但可以从其他来源获取的知识或经验。这可以是通过预训练模型、迁移学习等方式引入的信息,也可以是领域专家提供的规则或模式。例子:如果一个CNN已经被训练用于识别某些特定类型的图像(例如风景),那么它可以将学到的关于这些图像的一般特征(如天空的颜色通常是蓝色,树木是绿色等)应用到新的图像处理任务中,即使新任务涉及不同类型的图像。这种预先学习到的知识就是外部先验。
3.2 提出CNN降噪器
CNN降噪器的架构如图所示。它由七层组成,包含三个不同的模块,即第一层中的"扩张卷积+ ReLU"模块,五个"扩张卷积+BN+ ReLU"中间层的块,以及最后一层中的"扩张卷积"块。从第一层到最后一层的(3×3)扩张卷积的扩张因子分别被设置为1,2,3,4,3,2和1。每个中间层的特征映射数量设置为64。下面我们将在网络设计和训练中给出一些重要细节。
使用扩张过滤器放大接收区域 已经广泛认识到,上下文信息促进了图像去噪中损坏的像素的重构。在CNN中,为了捕获上下文信息,它通过前向卷积操作逐步扩大感受野。一般来说,有两种基本的方法来扩大CNN的感受野,即增加过滤器尺寸和增加深度。但是,增加滤波器的大小不仅会引入更多的参数,还会增加计算负担。因此,在现有的CNN网络设计中流行使用深度较深的3×3滤波器。在本文中,我们改为使用最近提出的扩张卷积来在感受野大小和网络深度之间进行权衡。扩张卷积以其扩大感受野的能力而闻名,同时保持传统3×3卷积的优点。具有膨胀因子 s 的扩张滤波器可简单地解释为大小为(2s + 1)×(2s + 1)的稀疏滤波器,其中只有9个固定位置可以是非零。因此,每层的等效感受野是 3,5,7,9,7,5和3。因此,可以容易地获得所提出的网络的感受野是 33×33。如果使用传统的 3×3 卷积滤波器,网络将具有相同网络深度的大小为15×15 的感受野或者具有相同感受野但深度为 16(如 33× 33)。为了展示我们的设计在上述两种情况下的优点,我们已经在相同的训练设置下训练了噪声水平为25的三种不同模型。事实证明,我们设计的模型在BSD68数据集上的平均PSNR可以达到 29.15dB ,比传统的 3×3 卷积滤波器的7层网络的28.94dB好得多,并且非常接近16层网络的 29.20dB 。
扩张卷积:引入了膨胀因子 s,意味着卷积核中的权重不是连续排列的,而是每隔 s−1 个像素才应用一次权重。比如,当膨胀因子为 2 时,原本 3x3 的卷积核实际上会跨越 5x5 的区域,但是只用了 9 个位置上的权重,其余位置被“跳过”。在图像去噪任务中,捕捉到更大的上下文信息可以帮助更准确地修复受损的像素。使用扩张卷积,CNN可以在不增加太多计算负担的情况下,获得更大的感受野,从而更好地利用周围像素的信息来修复目标像素。
使用批量归一化和残差学习来加速训练 虽然先进的梯度优化算法可以加速训练并提高性能,但架构设计也是一个重要因素。在最近的CNN架构设计中,批量规一化和残留学习是最具影响力的两种架构设计技术。特别指出,批量归一化和残差学习相结合对高斯去噪特别有用,因为它们相互有利。具体而言,它不仅可以实现快速稳定的训练,而且还可以带来更好的去噪效果。在本文中,采用这种策略,我们凭经验发现它也可以使不同噪声级别的模型快速转换到另一模型。
使用小尺寸的训练样本来帮助避免边界效应 由于卷积的特点,CNN的去噪图像可能会导致令人讨厌的边界效应而没有适当的处理。有两种常见的解决方法,即对称填充和零填充。我们采用零填充策略,希望设计的CNN具有模拟图像边界的能力。请注意,第四层扩张因子4的膨胀卷积在每个特征图的边界填充4个零。我们凭经验发现,使用小尺寸的训练样本可以帮助避免边界效应。主要原因在于,不使用大尺寸的训练块,将它们裁剪成小块可以使CNN看到更多的边界信息。例如,通过将尺寸为70×70的图像块裁剪成尺寸为35×35的四个小的非重叠块,边界信息将大大增加。我们还使用大尺寸的图像块测试了性能,我们凭经验发现这并不能改善性能。但是,如果训练图像块的大小小于接受场,则性能会下降。
学习具有小间隔噪声水平的特定降噪模型 由于迭代优化框架需要具有不同噪声级别的各种降噪器模型,因此应该考虑如何训练辨别模型的实际问题。各种研究表明,如果子问题(即公式(6a)和公式(6b))的确切解决方案对于优化是困难或耗时的,那么使用不精确但快速的子问题解决方案可能会加速收敛[39, 66], 在这方面,他们不需要为每个噪声水平学习许多有区别的降噪模型。另一方面,虽然公式9是一个降噪器,它与传统的高斯去噪具有不同的目标。传统的高斯去噪的目标是恢复潜在的干净的图像,然而,这里的去噪器只是起到自己的作用,而不管要去噪的图像的噪声类型和噪声水平如何。因此,公式(9)中的理想判别式降噪器应按当前的噪声水平进行训练。结果是,设定去噪的数量是有折衷的。在本文中,我们的噪声水平范围为[0,50],以步幅2训练了一组降噪器,从而为每个灰色和彩色图像先验模型产生25个降噪器。由于迭代方案,[0,50]的噪声水平范围足以处理各种图像重建问题。尤其值得注意的是,降噪器的数量要远远少于那种为不同退化学习不同模型的方法。