Continuous Optical Zooming: A Benchmark for Arbitrary-Scale Image Super-Resolution in Real World(CVPR24)
-
连续变焦的benchmark:用于真实世界任意尺度盲图像的重构。
1、存在的问题
-
合成的退化,如Bicubic退化,无法捕捉真实世界复杂的退化;
-
存在面向真实世界的HR-LR训练集,但没有特定针对任意尺度真实超分数据集;
-
对于真实LR的超分,Bicubic训练的模型存在模糊和伪影;
2、真实数据的采集
-
对于不同倍率真实图像数据集的采集是通过作者设计的自动连续变焦系统来收集的:
-
相比于手动的调整焦距来拍摄不同尺寸大小的图像,更加的稳定;
-
收集的不同倍率的数据也更加的均衡;
-
-
主要包含八种类型的场景,主要的场景为建筑;
-
目前的真实数据
-
DRealSR、RealSR
-
City100、SR-RAW
-
-
但这些real-world的数据集仅关注固定尺寸,如x2/x3/x4;
3、本文方法
-
先前的方法通常集中于单独的坐标及其相应的潜在代码。
-
通过考虑多个坐标,并使用Meta-learning以MLP的方式对其进行混合,提出了一种
Local Mix Implicit Network (LMI)
-
LMI主要由两个部分组成:
MSMM
和QMM
3.1 MSMM (Meta Spatial Mix Module)
-
先前的方法集中单独的坐标和相应的潜码;
-
对于RGB值的预测一般是根据以下公式来计算的:
-
Z为潜码,通过EDSR或者RDN来编码,V为接近x_q的坐标,Z为对应V的潜码。
-
对于潜码进行展开,得到x_q的Local Token,定义为LT(x_q):
-
对LT(x_q)进行反转,然后与相对坐标C_i以及尺度因子1/r生成的Mix Weight: W来做连接;
-
Mix Weight:对连续的相对坐标和尺度因子倒数进行编码之后,并通过扩展操作将其和LT(x_q)^T进行对齐
-
-
Mix Weight的作用:我理解为通过MLP的mixing,使得对于一个查询点的来说,能够利用到整个4x4的局部区域的信息来重建;
-
-
-
最后通过MLP来得到特征:
-
MSMM是建立在Meta-Learning上的,将多个坐标信息转换为混合权重,以指导潜码的混合,促进空间纹理细节的捕捉。
3.2 QMM (Query Mix Module)
-
由于超分过后的像素与原来的LR的像素信息具有很强的相关性:
-
使用相应的RGB值来引导进行解码;
-
C_i和R_i以及尺度因子倒数1/r和LTM(x_q)一起来进行学习
-
-
QMM的作用为通过将RGB和坐标进行嵌入,以达到潜码的内部嵌入;
-
QMM之后进行局部集成(LIIF里的思想)进行增强;
4、实验
4.1 实验设置
-
数据集使用采集的真实任意尺度数据集:Continuous Optical Zooming(COZ);
-
采集的尺寸位于1.0和4.0之间;
-
测试为在COZ的test数据集上以及真实拍摄的图片;
-
设置了两组主观意愿的实验:以人们对视觉效果的投票为准;
4.2 实验效果
在COZ测试集上的效果,所有的网络是都重新在COZ的训练集上训练过的;
-
LMI以最少的参数量,达到了最好的效果;
-
分为了两个特征提取(潜码)的网络EDSR和RDN;
-
LMI不算是网络的设计,算是对EDSR或者RDN得到的特征之后来进行特征的增强,以更好的适应于任意尺度超分的任务;
新的生成HR-LR配对数据的方式:
-
以往的HR-LR的配对数据是通过对固定分辨率的图像来生成的;
-
提出了一种随机选择分辨率的方式来生成HR-LR,每一次选择的分辨率是不同的,可能潜在的提供了尺度的信息;
COZ训练集和合成的BD训练集的不同
-
为了验证采集的COZ数据集更加符合真实场景下的任意尺度超分,在两种数据集上进行训练并测试;
-
一组为合成的BD退化,一种是采集的COZ数据(Real);
-
COZ上训练的方法,在真实的测试集的效果要更好;
消融实验:
-
LMI-a为不使用Meta-Learning来学习坐标的嵌入;
-
LMI-b为去掉多坐标的混合;
-
LMI-c为移除MSMM模块;
-
LMI-d为去除掉QMM里面RGB信息的引导;
4.3 可视化对比
对不同的训练集下的可视化结果进行了对比
-
在COZ上训练的模型,超分的结果没有噪声和伪影,类似于光学变焦的结果;
-
而在BD上训练的模型,存在可见的伪影噪声;
真实拍摄照片的测试:
-
Real表示在COZ上训练的结果,其结果相比于BD更加的接近于光学变焦,验证了COZ数据集的有效性;
视觉感观调查实验:
-
LMI位居第一的票数最多;
对于COZ和BD模拟的不同结果的投票:
-
结果表明,COZ数据集更加的适用于真实场景下的任意尺度超分;