点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
组织机构:台湾大学, Microsoft, UC Merced, Google Research
论文:https://arxiv.org/abs/2501.13134
主页:https://unirestore.github.io
簡介:
现有图像恢复技术大致可分为两类:感知式图像恢复(Perceptual Image Restoration, PIR)与任务导向图像恢复(Task-oriented Image Restoration, TIR)。前者以提升画面视觉质量为目标,强调图像清晰度与观感,常用于图像修复与增强等应用;后者则关注是否增强图像中的关键语义信息,从而提升下游任务如分类、识别或分割的准确率。以往的研究多聚焦于其中一类,使得模型难以兼顾视觉质量与任务性能,难以满足实际应用中多样化的需求。
本论文提出 UniRestore,一种基于扩散模型先验(Diffusion Prior)的统一图像恢复框架,能够有效弥合PIR与TIR任务之间的差距。为此,我们引入两个关键模块:互补特征恢复模块(Complementary Feature Restoration Module, CFRM),用于增强编码器的图像表征恢复能力;以及任务特征适配器(Task Feature Adapter, TFA),通过轻量化的任务提示(Task Prompt)调节扩散模型的解码特征,能够根据不同任务需求动态融合恢复与生成的表征。 此外,UniRestore 在无需修改主模型结构与原始数据的前提下,仅通过新增提示向量(Prompt)即可快速扩展至其他下游任务,具有良好的可扩展性。实验结果表明,UniRestore在视觉质量、分类、语义分割等多项任务中均取得领先性能,并可有效泛化至未知数据集与未知下游模型,展现出极高的实用价值与鲁棒性。
方法:
Overview of UniRestore
UniRestore基于预训练扩散模型,并结合两个关键模块进行任务适配:编码端通过互补特征恢复模块(Complementary Feature Restoration Module, CFRM)从退化图像中恢复干净特征,同时提供增强特征作为补偿信息及扩散生成条件;解码端则结合任务特征适配器(Task Feature Adapter, TFA),利用轻量级任务提示词(Task Prompts)控制恢复与生成特征的融合,输出对应下游任务的还原结果。该设计实现了统一建模,同时具备良好的扩展性,整体训练流程分为三个阶段:
Stage 1: Complementary Feature Restoration Module & ControlNet
第一阶段旨在强化编码器的特征表征能力。CFRM通过四个步骤依次处理退化输入:特征增强(Feature Enhancement)、组内通道注意(Intra-group Channel Attention)、组间通道整合(Inter-group Channel Integration)与特征重建(Feature Recovery),从而恢复出兼具清晰度与语义的补偿特征,用于后续解码。此外,最后一层的输出也作为输入提供给 Controller 与 SC-Tuner,通过联合训练共同控制预训练扩散模型的生成过程,使其更符合还原目标与任务需求。
Stage 2: Task Feature Adapter
第二阶段的目标是调适扩散模型的生成能力,以满足不同下游任务的需求。本阶段仅更新任务特征适配器(TFA),其余模块参数保持不变。TFA负责将 CFRM 恢复的特征与解码器中的扩散特征融合,输出符合任务需求的还原结果。为避免每个任务都需单独设计适配器,TFA 借鉴 prompt tuning 和 LSTM 的设计思路,采用轻量化的任务提示词(Task Prompt)作为调适核心,在各层中逐步更新并引导特征融合。该设计不仅提升了模型的可扩展性,也能有效应对多任务场景,实现高效的模型共享与快速适应。
Introducing Additional Tasks
在新增任务时,仅需引入对应的新任务提示词(Task Prompt),并使用新任务的数据与目标进行训练,无需重新访问原始任务的数据或损失函数,便可高效扩展至新的任务需求。
实验结果:
本文针对感知式图像还原(PIR)与任务导向图像还原(TIR)进行定性与定量分析,并与具有代表性的PIR与TIR方法进行比较。在原始设置与UniRestore多任务设置下分别训练,全面评估各方法在视觉质量与下游任务表现上的差异与优势。
感知式图像还原比较(Perceptual Image Restoration Comparison)
本文在多个数据集上进行了测试,涵盖已知与未知场景,以验证模型在不同退化条件下的泛化能力与视觉质量。相比传统感知式方法,UniRestore在去噪与细节还原方面表现更加出色,能够有效减少瑕疵与模糊,同时保留更多纹理与边缘信息,展现出优异的视觉一致性与真实感。
任务导向图像还原比较(Task-oriented Image Restoration Comparison)
1. 分类任务(Classification):在图像分类任务中,UniRestore以ResNet-50 进行训练,并结合 ResNet-50 与 ViT-B 进行评估。实验结果显示,UniRestore 在多个数据集上显著提升分类准确率,表现接近高质量图像(HQ)输入的水平。相比之下,传统 PIR 方法由于更注重人眼视觉感受,难以兼顾识别精度。可视化分析进一步表明,UniRestore 还原图像所生成的特征激活图与高质量输入更为一致。
2. 语义分割任务(Semantic Segmentation):在语义分割任务中,UniRestore采用DeepLabv3+作为分割模型,并在测试阶段结合DeepLabv3+ 与 RefineNet-lw 进行评估。实验结果表明,UniRestore不仅在已见数据上表现优异,也能在未见数据和不同网络架构下保持稳定,展现出卓越的细节还原能力与特征表征的泛化性能。
消融实验(Ablation Study)
1. 模組有效性分析:
本实验比较了四种设置:(i) 仅使用预训练 Stable Diffusion 与控制器的 Baseline;(ii) 移除 CFRM,直接使用原始编码特征;(iii) 移除 TFA,仅使用解码器生成特征;(iv) 完整的 UniRestore 模型。实验结果表明,CFRM 与 TFA 两个模块在感知式影像还原(PIR)与任务导向影像还原(TIR)任务中皆具有关键作用,能显著提升整体性能。
2. 可拓展性分析:
为验证 UniRestore 的扩展能力,论文额外引入目标检测任务,仅需新增对应的任务提示词(Task Prompt),并以RetinaNet作为识别模型进行训练。实验结果显示,无需重新训练整体模型,UniRestore即可顺利适应新任务,展现 TFA 模块设计在多任务场景中的高弹性与优异扩展性。
结语
本论文提出了UniRestore模型,首次实现感知式与任务导向影像还原的统一处理。通过引入互补特征还原模块(CFRM)与任务特征适配器(TFA),有效整合扩散模型与多种下游任务。实验结果验证了其在视觉质量与任务性能方面的优势,并展现出高度的可扩展性,为多任务图像还原领域提供了全新的解决方案与研究方向。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CV垂直方向和论文投稿交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!
▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看