《LoRA-IR》:2024年10月中科院自动所提出了一种用于多种修复图像恶化退化问题的LORA,效果拔群

在这里插入图片描述

1、中科院于2024年10月发布 LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration
2、LoRA-IR的Github仓库

在这里插入图片描述

论文摘要

论文介绍一种名为LoRA-IR的新方法,该方法旨在解决图像恢复中的复杂和多样化退化问题。包括去模糊、去雾、JPEG伪影去除、低光增强、去噪、雨滴去除、去雨、阴影去除、除雪和图像修复等等问题。

1. 背景与挑战

首先,文章指出基于提示(Prompt)的全功能图像恢复框架已经取得了显著的性能成就,这些框架通过将特定退化信息融入到提示模块中来工作。然而,面对现实世界中遇到的复杂多样的退化情况时,现有的方法仍然面临着重大挑战。这意味着尽管有了一些进展,但在处理实际应用中出现的各种退化问题时,现有技术还存在局限性。

2. 解决方案 - LoRA-IR

为了解决上述挑战,研究者们提出了LoRA-IR,这是一种灵活的框架,能够动态地利用紧凑的低秩专家来实现高效的全功能图像恢复。这里的关键点在于“动态”和“低秩专家”,意味着该框架可以根据不同的退化类型灵活调整,并且使用了计算效率高的模型组件。

2.1 训练过程

LoRA-IR的训练分为两个阶段:

  • 退化导向的预训练:在这个阶段,研究者增强了一个预训练的CLIP模型,使其能够处理更高分辨率的图像。这样做是为了从图像中提取出强大的退化表示,这些表示可以适应性地指导图像恢复网络。简而言之,这一步是让模型学会识别不同类型的退化特征

  • 参数高效的微调:在这一阶段,研究者使用低秩适应(Low-Rank Adaptation, LoRA)技术对预训练的图像恢复网络进行微调。LoRA是一种有效的模型微调技术,它通过仅更新模型的一小部分参数来实现对新任务的学习,从而保持较高的计算效率。

2.2 动态集成机制

LoRA-IR建立在一个混合专家(Mixture-of-Experts, MoE)架构之上,该架构允许LoRA-IR通过一个退化导向的路由器动态地整合多个低秩恢复专家。这意味着当面对新的或未知的退化类型时,LoRA-IR能够选择最适合当前任务的专家来进行图像恢复,从而大大提高了模型对各种复杂场景的适应能力。

3. 实验结果

广泛的实验表明,LoRA-IR在14个图像恢复任务和29个基准测试上达到了最先进的性能水平。 这说明了LoRA-IR不仅在理论上具有创新性,在实践中也表现出了强大的效果。

4. 开源贡献

最后,研究者提到代码和预训练模型将在GitHub上公开提供,代码和预训练模型

综上所述,LoRA-IR是一个针对图像恢复中复杂退化问题提出的高效解决方案,其创新之处在于动态地利用低秩专家来提高模型的适应性和效率。

1 引言介绍

图像恢复(IR)是计算机视觉中的一个基本任务,旨在从低质量(LQ)输入中恢复高质量(HQ)图像。近年来,随着针对特定退化(如恶劣天气去除,去噪,去模糊,低光增强)的专用恢复网络取得了显著进展。然而,在实际应用(如自动驾驶和户外监控)中,图像通常同时受到多种复杂退化的影响,包括雾、雨、雪、低光条件和运动模糊。这些复杂退化不仅降低了图像质量,还严重损害了下游视觉任务的性能,对系统的安全性和可靠性提出了重大挑战。为单任务恢复而设计的现有专用模型在这些不可预测和变化的环境中很难有效泛化。

为了克服专业模型的局限性,越来越多的人开始关注能够处理多种Degradation的全集成框架的开发。早期的方法,如多编码器架构[24](图2(a)),为不同类型的Degradation分别使用独立的编码器。虽然它们在处理多种Degradation方面有效,但冗余的结构导致了大量参数,这阻碍了可伸缩性和效率。最近的方法采用了基于 Prompt 的框架(图2(b)),将Degradation特定的信息编码到轻量级的 Prompt 中,以引导共享网络。

在这里插入图片描述

然而,仅依赖轻量级 Prompt 和静态共享网络可能无法完全捕捉到不同Degradation相关联的精细细节和特定模式,导致恢复结果不理想。此外,Degradation之间的潜在相关性和共享特征–如恶劣天气条件下的共同模式–没有得到充分利用。探索这些相关性可能是增强模型在复杂真实世界场景中适应性和有效性的关键。

在这项工作中,作者提出了一种名为LoRA-IR的灵活高效的整体图像修复框架(图2(c))。受低秩自适应(LoRA)在参数高效微调方面的成功启发,本文探索了使用多种低秩专家来高效建模Degradation特性和相关性的方法。LoRA-IR包含两个训练阶段,均由作者提出的Degradation导向路由器(DG-Router)引导。DG-Router基于强大的视觉语言模型CLIP,其在广泛的高级视觉任务中展示了强大的表示能力。然而,在低级任务中,其有限的输入分辨率会导致处理高分辨率LQ图像时的性能不佳。

为此,作者提出了一种简单而有效的方法将CLIP扩展到高分辨率。LoRA-IR包括下采样图像和应用滑动窗口技术以捕获全局和局部细节表示,然后使用轻量级MLP进行融合。在训练参数最小化和训练时间短的情况下,DG-Router可以提供强大的Degradation表示和概率指导,用于LoRA-IR的训练。

在第一阶段,作者使用DG-Router提供的Degradation表示来指导IR网络的预训练。Degradation表示通过提出的Degradation引导自适应调制器(DAM)动态地调节IR网络内的特征。

在第二阶段,作者使用LoRA微调第一阶段得到的IR网络。

基于Mixture-of-Expert(MoE)结构,作者构建了一组低秩恢复专家。利用DG-Router的概率引导,作者稀疏选择不同的LoRA专家,动态地调整IR网络。不同的专家增强了网络捕捉Degradation特定知识的能力,而它们的协同作用使网络具备学习各种Degradation之间的相关性的能力。

动态网络结构使得LoRA-IR能够适应多种Degradation,并提高了其泛化能力。如图1所示,LoRA-IR在处理复杂实际场景方面超过了所有比较的最先进的一体化方法,并展示了良好的泛化能力。

在这里插入图片描述

主要贡献可概括如下:

  • 提出了LoRA-IR,一种简单而强大的全图像修复 Baseline 。LoRA-IR采用了一种新颖的低秩专家结构混合,在提高架构灵活性的同时保持了计算效率。
  • 提出了一种基于CLIP的Degradation指导路由器( DG-Router ),用于提取强大的Degradation表示。DG-Router所需的训练参数和时间最小,为LoRA-IR提供了有价值的指导。
  • 经过在14个图像修复任务和29个基准测试中的广泛实验,验证了LoRA-IR的最高性能。值得注意的是,LoRA-IR在实际场景中表现出强大的泛化能力,包括在训练时未见过的任务和混合Degradation移除。

2 方法

在这里插入图片描述

如图4所示,图像恢复网络基于常用的U-Net结构,由堆叠的编码器、中间和解码器块组成。LoRA-IR由两个训练阶段组成:降维引导预训练和参数高效的微调,均由提出的降维引导路由器(DG-Router)指导。首先引入基于CLIP的DG-Router,用于提取稳健的降维表示并提供概率估计以指导LoRA-IR的训练。然后详细描述了LoRA-IR的预训练过程。最后,描述了微调过程。

2.1 Degradation-guided Router

如图4(a)所示,DG-Router利用一个预训练的CLIP图像编码器从LQ图像中提取丰富的特征。预训练的CLIP图像编码器通常将输入图像限制在较小的分辨率(例如,224x224)。在处理更高分辨率的图像时,常见的方法是将图像下采样到CLIP支持的分辨率,通过处理器实现。虽然这种方法对基于感知的较高层次分类任务影响可能很小,但在像素级回归任务(如图像修复)中,重大的下采样可能导致关键Degradation信息的丢失。

在这里插入图片描述

图3展示了CLIP处理器处理LQ图像后的结果。可以看出,显著的下采样导致LQ图像中的Degradation信息大量丢失,从CLIP输出特征中有效提取Degradation表示变得具有挑战性。

为了应对这个问题,作者提出了一种简单而有效的机制来扩展输入分辨率。对于输入LQ图像 L L Q ∈ R H × W × 3 L_{LQ}\in R^{H\times W\times 3} LLQRH×W×3,作者使用滑动窗口将图像划分为小的局部块 I s l i d e ∈ R M × H c × W c × 3 I_{slide}\in R^{M\times H_{c}\times W_{c}\times 3} IslideRM×Hc×Wc×3,其中 M M M是块的数量, H c × W c H_c\times W_c Hc×Wc是CLIP支持的分辨率。 I s l i d e I_{slide} Islide和降采样图像 I d o w n ∈ R H c × W c × 3 I_{down}\in R^{H_c\times W_c\times 3} IdownRHc×Wc×3同时输入到图像编码器中,得到输出特征 e s l i d e ∈ R M × C c l i p e^{slide}\in R^{M\times C_{clip}} eslideRM×Cclip e d o w n ∈ R C c l i p e^{down}\in R^{C_{clip}} edown

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值