【图像超分辨率重建】——EnhanceNet论文精读笔记

2017-EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis(EnhanceNet)

基本信息

作者: Mehdi S. M. Sajjadi Bernhard Sch¨olkopf Michael Hirsch
期刊: ICCV
引用: *
摘要: 单一图像超分辨率是指从单一低分辨率输入推断出高分辨率图像的任务。传统上,这项任务的算法性能是用像素级的重建措施来衡量的,如峰值信噪比(PSNR),这已被证明与人类对图像质量的感知关联性很差。因此,最小化这些指标的算法往往会产生过度平滑的图像,这些图像缺乏高频纹理,尽管产生了高PSNR值,但看起来并不自然。我们提出了一种新的自动纹理合成应用,结合感知损失,重点是创造真实的纹理,而不是在训练期间优化地面真实图像的像素精确再现。通过在对抗性训练环境中使用前馈全卷积神经网络,我们在高放大率下实现了图像质量的大幅提升。在一些数据集上的广泛实验显示了我们方法的有效性,在定量和定性的基准上都产生了最先进的结果。

1.简介

  • 超分辨的困难:当下采样时,大量不同的HR图像可以产生相同的LR图像。对于高倍率,这种一对多的映射问题变得更糟,使SISR成为一个高度复杂的问题。大的下采样系数导致高频信息的损失,使超分辨率图像中的纹理区域变得模糊,过于光滑,外观不自然。

  • 本文提出的方法比SOTA方法展示更清晰:这种行为的原因在于目前最先进的方法所采用的目标函数的选择:大多数系统最小化HR地面真实图像和它从LR观察的重建之间的像素平均平方误差(MSE),然而MSE已被证明与人类对图像质量的感知相关性很差。虽然容易最小化,但最佳MSE估计器返回许多可能的解决方案的平均值,这使得SISR的结果看起来不自然和不可靠。在超分辨率的背景下,这种回归平均的问题是一个众所周知的事实,然而,对自然图像的高维多模态分布进行建模仍然是一个具有挑战性的问题。在这里插入图片描述
    上图表明最低MSE的最终视觉效果不尽人意,而对抗损失产生的图像却和原图很相似。耐人寻味的是,这个结果的PSNR比模糊的MSE样本低。

  • 本文的工作:提出了对最近的纹理合成网络的新颖修改,结合对抗性训练和感知损失,在大放大率下产生真实的纹理。该方法同时适用于所有的RGB通道,并以有竞争力的速度产生自然图像的清晰结果。通过适当的损失组合训练,我们在PSNR和使用感知指标方面都达到了最先进的结果。

2.相关工作

  • 介绍了SISR的多年发展历程,从最经典的插值,到频域法,再到重建法,到基于深度学习的方法。高倍率SISR背景下的真实纹理仅由用户指导的方法实现。
  • 自从SRCNN以来,PSNR就成为衡量SISR技术的指标,由于这些模型是通过MSE最小化来训练的,结果往往是模糊的,并且由于上述的回归平均问题而缺乏高频纹理。有人为CNN提出了其他的感知损失,其想法是将损失从图像空间转移到像VGG这样的物体识别系统的更高层次的特征空间,尽管PSNR值较低,但结果更清晰
  • 目前CNN用于纹理合成和风格转移比较有效,但是尚未用于SISR,同时对抗网络被证明在一些图像生成任务中产生了好结果

3.单幅图像超分辨

多数模型使用MSE之类的损失函数优化模型,虽然以PSNR衡量达到了很好的效果,但得到的图像往往看起来很模糊,缺乏原始图像中的高频纹理。这是SISR中高模糊性的直接影响:由于降采样从输入图像中删除了高频信息,没有任何方法可以希望以像素级的精度重现所有精细细节。因此,即使是最先进的模型也会学习在这些区域产生所有可能的纹理的平均值,以使输出图像的欧氏损失最小。

在上图中,所有的高频信息都被降采样所丢失。关于欧氏损失的最佳解决方案只是所有可能的图像的平均值,而更高级的损失函数会导致更真实的,尽管不是像素完美的再现。

4.方法

4.1.网络结构

网络结构如图所示:
在这里插入图片描述

4.2.训练与损失函数

  1. 图像空间的像素级损失
    LE=∥Iest−IHR∥22\mathcal{L}_E=\left\|I_{\mathrm{est}}-I_{\mathrm{HR}}\right\|_2^2LE=Iest
<think>好的,我现在需要帮助用户寻找关于基于对抗网络的图像超分辨率重建的毕业论文复现资源,包括代码、数据集和教程。首先,我应该回忆一下用户提供的引用内容,看看有没有相关的内容可以借鉴。 引用1提到超分辨率图像图像的转换任务,使用残差学习来恢复高频细节。这可能和对抗网络中的生成器设计有关,比如SRGAN这类模型通常使用残差块。引用3讨论了U-Net结构在扩散模型中的应用,但对抗网络也可能使用类似的架构,比如在生成器中用ResNet块。用户的需求是复现对抗网络的超分模型,所以可能需要参考这些结构。 接下来,用户需要具体的资源:代码、数据集、教程。我需要整理常用的对抗网络模型,比如SRGAN、ESRGAN,这些都有开源实现。数据集方面,常用的有DIV2K、Set5、Set14等。教程的话,GitHub上的项目通常会有README指导,还有一些博客或视频教程可能有用。 然后,我需要考虑用户可能的毕业论文复现步骤。通常需要数据准备、模型搭建、训练、测试、结果评估。可能需要指导如何下载数据集,调整参数,处理数据增强等。此外,预训练模型和调参技巧也是关键,因为对抗网络训练不稳定,需要一些技巧。 还要注意用户提到的引用2,里面提到提供训练好的模型权重,方便对比和应用。所以在回答中应该推荐那些包含预训练权重的资源,比如BasicSR项目,或者ESRGAN的官方实现,这些通常会有现成的模型供下载。 另外,用户可能需要中文学术指导,比如如何写论文的方法部分,如何复现算法,这时候推荐一些中文的专栏或博客可能会有帮助,比如引用2提到的图像去噪专栏,虽然主题不同,但方法类似,可以借鉴其结构。 最后,确保回答结构清晰,分点列出资源,并给出具体步骤,比如数据准备、模型选择、训练技巧等。同时,生成相关问题,帮助用户进一步深入,比如如何评估模型性能,或者如何处理训练中的模式崩溃问题。</think>### 基于对抗网络的图像超分辨率重建复现指南 #### 一、核心资源推荐 1. **代码库** - **ESRGAN (Enhanced SRGAN)** 官方PyTorch实现:https://github.com/xinntao/ESRGAN 特点:包含预训练权重、测试脚本,支持自定义数据集[^1] - **BasicSR** 开源工具库:https://github.com/xinntao/BasicSR 支持SRGAN/ESRGAN等模型,提供完整训练流程 2. **数据集** - **训练集** - DIV2K (800张高清图):https://data.vision.ee.ethz.ch/cvl/DIV2K/ - Flickr2K:含2650张多样化场景图 - **测试集** - Set5/Set14:经典基准集 - Urban100:含复杂纹理的挑战性数据 3. **教程资源** - **论文精读+代码实战** - ESRGAN论文解读:https://zhuanlan.zhihu.com/p/363974343 - 带注释的PyTorch实现:https://github.com/leftthomas/ESRGAN - **视频课程** 《生成对抗网络入门》第6章专门讲解SR应用:https://www.bilibili.com/video/BV1RA411L7mR #### 二、关键复现步骤 1. **数据预处理** - 使用MATLAB/Python生成低分辨率图像: ```python from PIL import Image img_hr = Image.open('HR.jpg') img_lr = img_hr.resize((hr_w//4, hr_h//4), Image.BICUBIC) # 4倍下采样 ``` - 建议采用**数据增强**:随机旋转、翻转、添加噪声 2. **模型搭建要点** - **生成器结构示例**(基于ResNet): ```python class Generator(nn.Module): def __init__(self): super().__init__() self.conv1 = nn.Conv2d(3, 64, 9, padding=4) self.res_blocks = nn.Sequential(*[ResidualBlock(64) for _ in range(16)]) self.upscale = nn.Sequential( nn.Conv2d(64, 256, 3, padding=1), nn.PixelShuffle(2), nn.PReLU() ) ``` 注:残差块设计可有效学习高频细节[^1] 3. **训练技巧** - 两阶段训练策略: 1. 先用MSE损失预训练生成器(20万次迭代) 2. 加入判别器进行对抗训练(10万次迭代) - 学习率设置:初始值1e-4,每5万次迭代减半 #### 三、性能评估方法 1. **客观指标** - PSNR/SSIM计算工具: ```python from skimage.metrics import peak_signal_noise_ratio as psnr psnr_val = psnr(hr_img, sr_img, data_range=255) ``` 2. **主观评价** - 制作对比图展示边缘锐化效果: ![HR-LR-SR对比示例](https://xinntao.github.io/projects/ESRGAN_fig1.jpg) (图片来源:ESRGAN官方文档)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值