SEAL: A FRAMEWORK FOR SYSTEMATIC EVALUATION OF REAL-WORLD SUPER-RESOLUTION (ICLR24)
SEAL是第一个全面的real-SR评估框架,促进了real-SR的发展;
1、存在的问题

-
真实世界超分辨率(real-SR)方法专注于处理多样化的真实世界图像。关键思想是使用复杂的高阶退化模型来模拟现实世界的退化。尽管在各种场景下取得了不错的成绩,但仍面临评估的障碍。
-
目前,一些real-SR方法仅通过从大的退化空间空间中随机选择的一组退化的平均性能来评估模型的性能,无法提供对其整体性能的全面了解,会产生不一致且可能具有误导性的结果。
-
当面对不同的随机退化时,不同模型表现出不同的性能表现,如上图 (a)。
2、解决方法
-
提出了两个新的评测指标来更加全面的评测real-SR模型的性能表现,Acceptance Ratio (AR)和Relative Performance Ratio (RPR);
-
提出了一个新的评估框架
SEAL
,主要包括了:聚类算法,验收/卓越线以及评估策略;
3、SEAL

-
首先,需要通过聚类算法将退化空间中的退化聚类为
K
类,然后用K
个类中心来生成对应的测试集: -
-
分别设置了一个Acceptance Line和Excellence Line用来表示real-SR的模型性能;
-
Accepetance Line(
AL
)是在一个小型的网络上训练一个non-blind的模型作为基准,如FSRCNN; -
Excellence Line (
EL
) 是在大的网络上训练一个non-blind模型作为基准,如SRResNet; -
为real-SR模型在
上的性能表现,如PSNR/SSIM;
表示AL模型在
的性能表现,
表示EL模型在
的性能表现;

3.1 Acceptance Rate (AR)
-
AR表示real-SR模型可以超过AL的百分比,位于0-1之间;
-
-
AR表示了一个real-SR模型的基本性能;
3.2 Relative Performance Ratio (RPR)
RPR表示了real-SR模型相对于AL和EL的一个性能指标:
-
是sigmoid function,
表示了real-SR模型在第i个测试上好于AL;
-
表示real-SR模型在第i个测试上好于EL;
-
表示在大多数退化情况下表现出类似改进的情况,
为
在AL之上的均值,
为
在AL之下的均值;
4、实验
4.1 数据和训练设置
-
为了验证不同的real-SR真正的性能表现,使用BSRGAN和RealESRGAN模型以相同的概率生成
种退化对于Set14中的lenna图片;
-
使用谱聚类的方式,生成100个类中心,然后用类中心的退化设置生成100个测试集合,分别在Set14和DIV2K,表示为Set14-SE和DIV2K_val-SE;
-
分为MSE-Loss和GAN-Loss的两种模型,GAN的AL和EL模型分别为RealESRGAN和RealHATGAN;
-
对于AL和EL模型,使用预训练好的模型再进行微调;
4.2 对比实验
对于不同的方法使用SEAL进行评估;

-
对于得到的指标,
小于0.5的不参与排名,Table 2 中的Rank是以
为参考的;
-
相对于其他的评判指标更加的稳定,如PSNR和LPIPS;
和Random随机采样来测试进行对比:

-
Table 3 中可以看出对于两个Random的采样数据,BSRNet的性能表现是不一样的,不能表示在整个退化空间上的表现;
-
在Set14-SE上的测试结果是在整个退化空间上选出的最具代表性的100个test,更加的稳定和可靠;
-
Table 4在DIV2K_val-SE上的结果,也验证了模型性能的一致性,BSRNet的AR指标更高;
4.3 消融实验
谱聚类中心的个数

-
当类中心大于60时,性能表现趋于稳定,选择100作为类中心的个数;
聚类相似性矩阵的计算

-
使用图像的直方图来对聚类的结果进行评估相比于MSE和SSIM要更准确;
退化聚类的稳定性

-
横轴表示使用多少个图像来进行聚类,计算聚类中心的退化参数;
-
不同的图像进行聚类,得到的结果是一致的,也验证了SEAL评估框架的稳定性;
4.4 实验效果
LPIPS指标下的可视化结果

-
绿色为AL模型的性能,红色为EL模型的性能,各模型的表现在SEAL下的评估如Fig8;
不同cluster的图像退化程度的一个可视化

-
不同cluster能够将相似的退化聚类到一起,表明对退化空间聚类的有效性,提取到大的退化空间中重要的退化组。