CVPR24 Continuous Optical Zooming：面向连续变焦的Real-world超分辨率重构

KKKc森同学

于 2024-10-22 20:50:32 发布

阅读量1.2k

点赞数 29

文章标签：深度学习人工智能机器学习图像处理超分辨率重建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_47071402/article/details/143167936

版权

Continuous Optical Zooming: A Benchmark for Arbitrary-Scale Image Super-Resolution in Real World（CVPR24）

连续变焦的benchmark：用于真实世界任意尺度盲图像的重构。

1、存在的问题

合成的退化，如Bicubic退化，无法捕捉真实世界复杂的退化；
存在面向真实世界的HR-LR训练集，但没有特定针对任意尺度真实超分数据集；
对于真实LR的超分，Bicubic训练的模型存在模糊和伪影；

2、真实数据的采集

对于不同倍率真实图像数据集的采集是通过作者设计的自动连续变焦系统来收集的：
- 相比于手动的调整焦距来拍摄不同尺寸大小的图像，更加的稳定；
- 收集的不同倍率的数据也更加的均衡；

主要包含八种类型的场景，主要的场景为建筑；
目前的真实数据
- DRealSR、RealSR
- City100、SR-RAW

但这些real-world的数据集仅关注固定尺寸，如x2/x3/x4；

3、本文方法

先前的方法通常集中于单独的坐标及其相应的潜在代码。
通过考虑多个坐标，并使用Meta-learning以MLP的方式对其进行混合，提出了一种Local Mix Implicit Network (LMI)
LMI主要由两个部分组成：MSMM和QMM

3.1 MSMM (Meta Spatial Mix Module)

先前的方法集中单独的坐标和相应的潜码；
对于RGB值的预测一般是根据以下公式来计算的：

Z为潜码，通过EDSR或者RDN来编码，V为接近x_q的坐标，Z为对应V的潜码。
对于潜码进行展开，得到x_q的Local Token，定义为LT(x_q)：
- 对LT(x_q)进行反转，然后与相对坐标C_i以及尺度因子1/r生成的Mix Weight: W来做连接；
- Mix Weight：对连续的相对坐标和尺度因子倒数进行编码之后，并通过扩展操作将其和LT(x_q)^T进行对齐
  - Mix Weight的作用：我理解为通过MLP的mixing，使得对于一个查询点的来说，能够利用到整个4x4的局部区域的信息来重建；
最后通过MLP来得到特征：
MSMM是建立在Meta-Learning上的，将多个坐标信息转换为混合权重，以指导潜码的混合，促进空间纹理细节的捕捉。

3.2 QMM (Query Mix Module)

由于超分过后的像素与原来的LR的像素信息具有很强的相关性：
- 使用相应的RGB值来引导进行解码；
- C_i和R_i以及尺度因子倒数1/r和LTM(x_q)一起来进行学习
QMM的作用为通过将RGB和坐标进行嵌入，以达到潜码的内部嵌入；
QMM之后进行局部集成（LIIF里的思想）进行增强；

4、实验

4.1 实验设置

数据集使用采集的真实任意尺度数据集：Continuous Optical Zooming（COZ）;
采集的尺寸位于1.0和4.0之间；
测试为在COZ的test数据集上以及真实拍摄的图片；
设置了两组主观意愿的实验：以人们对视觉效果的投票为准；

4.2 实验效果

在COZ测试集上的效果，所有的网络是都重新在COZ的训练集上训练过的；

LMI以最少的参数量，达到了最好的效果；
分为了两个特征提取（潜码）的网络EDSR和RDN；
LMI不算是网络的设计，算是对EDSR或者RDN得到的特征之后来进行特征的增强，以更好的适应于任意尺度超分的任务；

新的生成HR-LR配对数据的方式：

以往的HR-LR的配对数据是通过对固定分辨率的图像来生成的；
提出了一种随机选择分辨率的方式来生成HR-LR，每一次选择的分辨率是不同的，可能潜在的提供了尺度的信息；

COZ训练集和合成的BD训练集的不同

为了验证采集的COZ数据集更加符合真实场景下的任意尺度超分，在两种数据集上进行训练并测试；
一组为合成的BD退化，一种是采集的COZ数据（Real）；

COZ上训练的方法，在真实的测试集的效果要更好；

消融实验：

LMI-a为不使用Meta-Learning来学习坐标的嵌入；
LMI-b为去掉多坐标的混合；
LMI-c为移除MSMM模块；
LMI-d为去除掉QMM里面RGB信息的引导；

4.3 可视化对比

对不同的训练集下的可视化结果进行了对比

在COZ上训练的模型，超分的结果没有噪声和伪影，类似于光学变焦的结果；
而在BD上训练的模型，存在可见的伪影噪声；

真实拍摄照片的测试：

Real表示在COZ上训练的结果，其结果相比于BD更加的接近于光学变焦，验证了COZ数据集的有效性；

视觉感观调查实验：

LMI位居第一的票数最多；

对于COZ和BD模拟的不同结果的投票：

结果表明，COZ数据集更加的适用于真实场景下的任意尺度超分；

博客等级

码龄5年

10
原创

196
点赞

174
收藏

149
粉丝

关注

私信

热门文章

最新评论

SEAL: 面向real-SR的全面评估框架（ICLR24）
优快云-Ada助手: 恭喜您发布了第8篇博客，“SEAL: 面向real-SR的全面评估框架（ICLR24）”，看来您对研究领域有着深入的了解和研究。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。在下一篇博客中，或许您可以分享一些关于如何将SEAL框架应用到实际问题中的案例分析，这样读者可以更好地理解和应用您的研究成果。期待您的下一篇作品！
Bicubic如何直接处理多模糊核的测试——For Gaussian kernel setting
优快云-Ada助手: 恭喜您在博客领域的持续创作，这篇关于Bicubic处理多模糊核的测试真的很有深度和实用性。希望您能继续保持创作的热情和专注，不断探索更多有价值的主题和内容。或许下一步可以尝试对不同的模糊核进行比较分析，或者探讨Bicubic在其他领域的应用，这样可以进一步丰富您的研究内容。期待您更多精彩的作品！
CVPR2024 Super-Resolution
优快云-Ada助手: 恭喜您发布了第6篇博客“CVPR2024 Super-Resolution”！您对超分辨率领域的研究和分享让读者受益匪浅。希望您可以继续保持创作的热情和努力，不断深入探索超分辨率技术的前沿，为读者带来更多有价值的内容。建议您在未来的创作中，可以多与同行交流、多倾听读者的意见和建议，不断提升自己的学术造诣和写作水平。期待您更多精彩的作品，加油！
文本辅助的图像超分辨率重构 Image Super-Resolution with Text Prompt Diffusion（2023 CVPR PromptSR)
KKKc森同学: 我是武老师的头号粉丝
文本辅助的图像超分辨率重构 Image Super-Resolution with Text Prompt Diffusion（2023 CVPR PromptSR)
m0_72653583: 森森的第一篇呐

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。