深度学习超分辨率综述阅读笔记(翻译)

深度学习超分辨率综述阅读笔记(翻译)

标题

https://arxiv.org/abs/1902.06068

摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术。近几年来,图像超分辨率研究已经利用深度学习技术取得了重大进展。文本旨在系统性综述图像超分辨率技术利用深度学习技术所取得的最新进展。总体来看,现有的 SR 技术研究大体可以分为三大类:监督 SR、无监督 SR 以及特定领域的 SR。除此之外,本文还介绍了其他一些重要内容,如公共开源基准数据集和性能评估指标。最后,本文还指出了未来的几个方向以及一些待解决的问题。

1 介绍

​ 这篇综述主要介绍目前深度学习领域超分辨率问题的一些方法。首先介绍了图像超分辨率问题以及问题的评价标准,之后重点介绍了监督学习领域的几大关键,包括上采样方法、网络结构、学习策略、其他优化策略等。并且分析了各种不同方法的优缺点。之后介绍了无监督学习的一些方法,最后给出了一些未来可能的研究方向。

主要贡献如下:

  • 全面回顾了基于深度学习的图像超分辨率技术,包括问题设置、基准数据集、性能度量、一系列基于深度学习的 SR 方法、特定领域的 SR 应用等。

  • 以分层和结构化的方式系统回顾了基于深度学习的 SR 技术的最新进展,总结了有效 SR 方案每个部分的优势和局限性。

  • 讨论了当前的挑战和开放性问题,确认了新的发展趋势和未来方向,为该社区提供了见解和指导

在下面的章节中,我们将介绍深度学习图像超分辨率最新进展的各个方面。图中。1以层次结构的方式显示了本调查中要涵盖的图像SR的分类法。第2节给出了问题的定义,并回顾了主流数据集和评估指标。第三节模块化地分析了监督SR的主要成分。第4节简要介绍了无监督的SR方法。第5节介绍了一些流行的特定领域的SR应用程序,第6节讨论了未来的方向和开放的问题。
在这里插入图片描述

2 问题设置与专业术语

2.1 问题设置

​ 图像超分辨率旨在从 L R LR LR图像中恢复相应的 H R HR HR图像。通常, L R LR LR图像 I x I_x Ix被建模为以下缩放的输出:
I x = D ( I y ; δ ) I_x = D(I_y;\delta) Ix=D(Iy;δ)
SR问题就是需要从 L R LR LR 图像 I x Ix Ix 中恢复真实 H R HR HR 图像 I y I_y Iy H R HR HR 近似 I ^ y \hat{I}_y I^y,公式如下:
I y ^ = F ( I x ; θ ) \hat{I_y} = F(I_x;\theta) Iy^=F(Ix;θ)
因此研究人员需要对退化映射建模,也就是对退化函数进行估计。
第一种建模方式(大多数工作)直接将退化建模为单个降采样操作,也就是:
D ( I y ; σ ) = ( I y ) ↓ s , s ⊂ σ D(I_y;σ) = (Iy)↓_s,s⊂σ D(Iy;σ)=(Iy)s,sσ
其中 ↓ s ↓_s s为缩放系数为s的下采样操作。事实上,大多数通用SR的数据集都是基于这种模式构建的,其中的降采样操作是具有抗混叠的双边插值。但是退化过程未知,并可能受到各种因素的影响(压缩伪影(compression artifacts)、各向异性退化(anisotropic degradations)、传感器噪声和散斑噪声(sensor noise and speckle noise))。
所以还有另一种估计:
D ( I y ; σ ) = ( I y ⊗ κ ) ↓ s + n ϵ , κ , s , ϵ ⊂ σ , 其 中 s 为 缩 放 系 数 D(I_y;σ)=(I_y⊗κ)↓_s+n_ϵ,κ,s,ϵ⊂σ, 其中s为缩放系数 D(Iy;σ)=(Iyκ)s+nϵ,κ,s,ϵσ,s
其中 I y ⊗ κ I_y⊗κ Iyκ是blur kernel与 I y I_y Iy的卷积, n ϵ n_ϵ nϵ是标准差为 ϵ ϵ ϵ的高斯白噪声。这种估计方式更接近现实,效果更好。
因此SR问题的目标就可以表述成:
θ ^ = a r g m i n θ L ( I ^ y , I y ) + λ ϕ ( θ ) ,    其 中 λ 为 t r a d e o f f 参 数 , ϕ ( θ ) 为 r e g u l a r i z a t i o n   t e r m \hat{θ}=argminθL(\hat{I}_y,I_y)+λϕ(θ), \ \ 其中λ为tradeoff参数,ϕ(θ)为regularization\ term θ^=argminθL(I^y,Iy)+λϕ(θ),  λtradeoffϕ(θ)regularization term

2.2 超分辨率任务的数据集

​ 除了这些数据集外,一些广泛用于其他视觉任务的数据集也被用于SR,如ImageNet [51]、MS-COCO[52]、VOC2012[53]、CelebA[54]。此外,结合多个数据集进行训练也很受欢迎,如结合T91和BSDS300[26]、[27]、[55]、[56],结合DIV2K和Flickr2K[31]、[57]。

2.3 图像质量评估(IQA)

2.3.0 分类
  • 根据判断依据:基于人类感知的主观方法(即图像看起来的真实性)和客观的计算方法

  • 根据参照对象:使用参考图像进行评估的全参考方法,基于提取特征比较的简化参考方法,以及没有任何参考图像的无参考方法(即盲IQA)

2.3.1 峰值信噪比

Peak Signal-to-Noise Ratio, PSNR
PSNR ⁡ = 10 ⋅ log ⁡ 10 ( L 2 1 N ∑ i = 1 N ( I ( i ) − I ^ ( i ) ) 2 ) \operatorname{PSNR}=10 \cdot \log _{10}\left(\frac{L^{2}}{\frac{1}{N} \sum_{i=1}^{N}(I(i)-\hat{I}(i))^{2}}\right) PSNR=10log10(N1i=1N(I(i)I^(i))2L2)
​ 通过最大可能像素值(表示为L)和图像之间的平均平方误差( M S E MSE MSE)来定义 P S N R PSNR PSNR。一般情况下使用8位图像表示, L = 255 , P S N R L=255,PSNR L=255PSNR的典型值从20到40不等,越高越好。
​ 是目前最受欢迎的对有损变换的重建质量评估之一,缺点是仅考虑了像素级别的均方差,没有考虑视觉角度。

2.3.2 结构相似度

Structural Similarity, SSIM
SSIM ⁡ ( I , I ^ ) = [ C l ( I , I ^ ) ] α [ C c ( I , I ^ ) ] β [ C s ( I , I ^ ) ] γ \operatorname{SSIM}(I, \hat{I})=\left[\mathcal{C}_{l}(I, \hat{I})\right]^{\alpha}\left[\mathcal{C}_{c}(I, \hat{I})\right]^{\beta}\left[\mathcal{C}_{s}(I, \hat{I})\right]^{\gamma}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值