图像超分辨率重建之SRCNN

最新推荐文章于 2025-11-16 16:46:12 发布

原创最新推荐文章于 2025-11-16 16:46:12 发布 · 5.2w 阅读

220 ·

CC 4.0 BY-SA版权

文章标签：

#super-resolution #srcnn #cnn

深度学习专栏收录该内容

3 篇文章

订阅专栏

本文介绍了SRCNN（Super-Resolution Convolutional Neural Network），这是深度学习在图像超分辨率重建领域的开创性工作。SRCNN利用三层卷积神经网络实现从低分辨率图像到高分辨率图像的转换，包括图像块提取、非线性映射和重建三个步骤。在训练和测试过程中，详细阐述了数据预处理、损失函数选择、网络结构以及如何处理边界问题，以实现高质量的图像重建。

部署运行你感兴趣的模型镜像

新版本请访问简书链接：https://www.jianshu.com/p/dfe85a3c2096

图像超分辨率重建：指通过低分辨率图像或图像序列恢复出高分辨率图像。高分辨率图像意味着图像具有更多的细节信息、更细腻的画质,，这些细节在高清电视、医学成像、遥感卫星成像等领域有着重要的应用价值。

Super-Resolution Convolutional Neural Network：本篇文章讲述的是深度学习在图像超分辨率重建问题的开山之作SRCNN(Super-Resolution Convolutional Neural Network)。香港中文大学Dong等将卷积神经网络应用于单张图像超分辨率重建上(Image Super-Resolution Using Deep Convolutional Networks, 论文与代码： http://mmlab.ie.cuhk.edu.hk/projects/SRCNN.html)。

可参考代码（非官方；Tensorflow版本）：https://www.jianshu.com/p/dfe85a3c2096

code: code

图1 SRCNN算法框架

图1为SRCNN算法的框架，SRCNN将深度学习与传统稀疏编码之间的关系作为依据，将3层网络划分为图像块提取(Patch extraction and representation)、非线性映射(Non-linear mapping)以及最终的重建(Reconstruction)。

SRCNN的流程为：

（1）先将低分辨率图像使用双三次差值放大至目标尺寸（如放大至2倍、3倍、4倍），此时仍然称放大至目标尺寸后的图像为低分辨率图像(Low-resolution image)，即图中的输入(input)；

（2）将低分辨率图像输入三层卷积神经网络，（举例：在论文中的其中一实验相关设置，对YCrCb颜色空间中的Y通道进行重建，网络形式为(conv1+relu1)—(conv2+relu2)—(conv3)）第一层卷积：卷积核尺寸9×9(f1×f1)，卷积核数目64(n1)，输出64张特征图；第二层卷积：卷积核尺寸1×1(f2×f2)，卷积核数目32(n2)，输出32张特征图；第三层卷积：卷积核尺寸5×5(f3×f3)，卷积核数目1(n3)，输出1张特征图即为最终重建高分辨率图像。

如何训练？

（1）训练数据集：论文中某一实验采用91张自然图像作为训练数据集，对训练集中的图像先使用双三次差值缩小到低分辨率尺寸，再将其放大到目标放大尺寸，最后切割成诸多33×33图像块作为训练数据，作为标签数据的则为图像中心的21×21图像块（与卷积层细节设置相关）；

（2）损失函数：采用MSE函数作为卷积神经网络损失函数；

（3）卷积层细节设置：第一层卷积核9×9，得到特征图尺寸为(33-9)/1+1=25，第二层卷积核1×1，得到特征图尺寸不变，第三层卷积核5×5，得到特征图尺寸为(25-5)/1+1=21。训练时得到的尺寸为21×21，因此图像中心的21×21图像块作为标签数据。（卷积训练时不进行padding）

如何测试？

（1）全卷积网络：所用网络为全卷积网络，因此作为实际测试时，直接输入完整图像即可；

（2）Padding：训练时得到的实际上是除去四周(33-21)/2=6像素外的图像，若直接采用训练时的设置（无padding），得到的图像最后会减少四周各6像素（如插值放大后输入512×512，输出500×500）。因此在测试时每一层卷积都进行了padding（卷积核尺寸为1×1的不需要进行padding）。这样保证插值放大后输入与输出尺寸的一致性。

（使用Tensorflow进行复现时，图像预处理时将像素点取值归一化至[0,1]，测试时，得到的最后一层特征图即重建结果直接乘以255再使用uint8转换时为0-255取值时会出现一些问题，如左下图2中方框所示，因此在乘以255前，将负值设置为0，大于255的设置为255，再使用uint转换即可解决）

图2 不对负值及大于1的值进行处理的结果图图3 对负值及大于1的值进行处理的结果图

（详细的padding方式等，可以查看链接中的代码）

重建结果？

（1）客观评价指标PSNR与SSIM：相比其他传统方法，SRCNN取得更好的重建效果。

（2）主观效果：相比其他传统方法，SRCNN重建效果更具优势。

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

107 条评论

pooqdcd 2021.01.06
请问一下代码怎么测试

weixin_45630332 2020.11.30
测试的图片显示太精辟了！竖起我的大拇指！

及时行乐dxy 2019.12.20
训练集是一组高分辨率图像以及其对应的低分辨率图像，mse是网络输出的图像与对应的高分辨率图像快的差值

HIT_NOVA 2019.09.02
大佬您好，我数字图像处理基础有点不好，想问一些可能比较水的问题请见谅。一个是关于我们说的“分辨率”和计算机给我们呈现的img.size是等价的吗？比如img.size返回128×128,是指图像分辨率128×128还是该图像在显示器显示的分辨率是128×128？（即真实分辨率是比128×128低的？）。第二个问题是我看论文和有些实现上对原始图片先加了一个高斯模糊，这一步有什么用呢？第三个问题是关于bicubic，先用bicubic缩小一倍，再用其增大一倍，为啥分辨率会变低呢？谢谢！
- HIT_NOVA回复Autism_ 2019.09.04
  [reply]Autism_[/reply] 感谢回答！
- Autism_回复HIT_NOVA 2019.09.03
  [reply]weixin_40883049[/reply] 1. 这里我们指的图像分辨率； 2. 好像是说低分辨率图像是高分辨率图像退化的结果，通过对高分辨率图像使用高斯核卷积可以得到低分辨率图像，可能是模拟这过程中的步骤吧 3. 这个是这样的，原始图像先缩小一定倍数，得到低分辨率图像，这时进行下采样损失了很多信息（原本分辨率下的信息），再放大回来的时候是对低分辨率图像进行的操作的（由于低分辨率图像本身就丢失了原图像的很多信息，所以插值回来的基本很难恢复原来的比如边缘之类的高频信息），这里的分辨率低应该指的画面不精细了？

阿狸狸狸狸大人 2019.08.12
请问楼主，我把训练数据集里的图换成自己的图，就没有运行结果了，是什么原因呢？
- 北辰.exe回复阿狸狸狸狸大人 2021.01.02
  只能测试bmp格式的图片
- 敏男回复阿狸狸狸狸大人 2020.11.12
  通道数不一样吧
- Lily775回复一步一个小脚印 2019.12.05
  [reply]qq_43652847[/reply] 可以，QQ：1290916469
- 一步一个小脚印回复Lily775 2019.12.05
  [reply]Lily775[/reply] 可以加下好友吗请教一下
- Lily775回复阿狸狸狸狸大人 2019.11.25
  [reply]Qian_L[/reply] 你输入的图片是几倍的？
- 小喜久回复阿狸狸狸狸大人 2019.09.08
  [reply]Qian_L[/reply] 您好你知道怎么将运行结果转换为图片嘛

DBAA110 2019.07.14
楼主你好，最近尝试将300*200的图片变为900*600的，但是训练时，对于数据集这一块有点疑惑，输入的图片经过SRCNN后得到的结果应该与什么对照呢？是要做怎么样的处理吗？
- Kyson_回复DBAA110 2019.12.19
  [reply]qq_33230158[/reply] 您好，这个问题您解决了吗？我现在没看明白，训练时输出的21*21图像该跟谁来比较来最小化损失函数呢？

风雨潇潇一书生 2019.06.03
楼主你好，通过代码中分析我发现 sub_input 和 sub_label 并不是同一个区域里面的，这样来作为标签和训练数据好像和理论不太一致，请问楼主帮忙解答这是为什么，还是我代码理解错误了？主要是训练数据集的构建上不太理解

rising_sun2233 2019.05.30
楼主，请问怎么由卷积结果重建高分辨率图像啊？
- Always_Blue_回复rising_sun2233 2020.01.24
  没有反卷积，网络里面的卷积完了33x33变21x21。论文是只对流明通道训练，因为训练完缩小了，所以如果是训练时重建图片看效果，要用双立方插值猜像素点放大再和另外两个通道合成图片。测试时全卷积padding设成same，直接得到相同尺寸的图片。
- rising_sun2233回复Always_Blue_ 2020.01.23
  [reply]weixin_40731240[/reply]那个是开始处理的放大，我是说网络里面的三层卷积，现在看来是不是用了反卷积
- Always_Blue_回复rising_sun2233 2020.01.23
  双立方插值放大
- 及时行乐dxy回复小喜久 2019.12.20
  了解一下反向传播
- rising_sun2233回复小喜久 2019.11.03
  [reply]qq_43630605[/reply] 我在想是不是使用了padding='SAME' ？我只是个苦b本科生。。。
- 小喜久回复rising_sun2233 2019.11.03
  [reply]u010017231[/reply] 损失函数计算的是卷小后的图片与原始图片的中间区域的mse，不断缩小mse，使lr图片经过卷积后更接近原始的hr图。请问你不是学超分这个方向的呀，如果可以加个扣扣一起交流：1214114067！
- rising_sun2233回复小喜久 2019.10.15
  [reply]qq_43630605[/reply] 没有。这几层都是把图片卷小啊，怎么实现的放大？
- 小喜久回复rising_sun2233 2019.08.12
  [reply]u010017231[/reply] 您理解了嘛？我也没懂经过三次卷积之后得到的就是一张重建后的图，是因为损失函数计算的是原始图与重建后的图片的像素之间的mse吗

新潮烟雨 2019.05.24
博主，请问下该算法为什么要在YCrCb颜色空间中进行图像重建呢？
- 雨幕下奔跑的孩子回复小喜久 2020.02.17
  [reply]qq_43630605[/reply]请问一下您的问题解决了吗？
- 小喜久回复Autism_ 2019.09.08
  [reply]Autism_[/reply] 楼主您好您这个代码是基于哪个通道进行重建的啊我想把运行结果转换为图片显示出来，但是不会
- Autism_回复新潮烟雨 2019.09.03
  [reply]u012518790[/reply] 最初开始是认为人的眼睛其实是对亮度通道比较敏感的，所以开始就对YCrCb通道的Y通道进行重建，后来直接就变RGB了

wenny_cx 2019.05.10
不好意思，发错_(:з」∠)_，是想问，我训练楼主您这个代码的时候，也出现了双三次插值的psnr更高的情况，不知道如何解决，不好意思打扰了，感谢楼主
- 小林Jolly回复wenny_cx 2022.11.08
  同问，已经三年了，不知道你现在还研究不研究这个东西了。
- doge C回复wenny_cx 2019.05.25
  [reply]qq_42655006[/reply] 你这个问题解决了么