DiffIR: Efficient Diffusion Model for Image Restoration

最新推荐文章于 2025-04-16 15:27:04 发布

尔呦

最新推荐文章于 2025-04-16 15:27:04 发布

阅读量1.1k

点赞数 17

分类专栏： Super Resolution 文章标签：深度学习

版权

28 篇文章

订阅专栏

问题引入

IR任务和image synthesis任务不同点是IR任务本身有一个很强的低质量图片作为先验，所以可以不完全遵循图片生成的范式，本文主要在compact的IPR空间进行DM；
本文提出的模型分为三个部分，1)CPEN(compact IR prior extraction network)来得到IPR(IR prior representation)，这个作为回归模型的指导信息；2)DIRformer回归模型，类比为decoder；3)DM来通过LQ图片得到IPR
训练分为两个stage，首先第一个stage训练CPEN和DIRformer，此时CPEN输入的是高质量图片；第二个stage使用的IPR是DM得到的；

在这里插入图片描述

stage1: 训练CPEN和DIRformer，首先将gt和LQ concat到一起，然后经过pixelunshuffle得到CPEN的输入，输出IPR $CPEN_{S1}(PixelUnshuffle(Concat(I_{GT},I_{LQ}))),Z\in\mathbb{R}^{4C'}$ ，之后IPR被送到DIRformer的DGFN和DMTA模块，第一阶段训练的损失是GT和生成HQ的L1损失，超分和inpainting任务还有erceptual loss and adversarial
loss；
DMTA的操作 $W_l^1Z\odot Norm(F) + W_l^2 Z$ ，其中 $W_l$ 是linear层， $F, F^{'}$ 分别是输入和输出的feature map， $Q = W_d^QW_c^QF',K=W_d^KW_c^KF',V = W_d^VW_c^VF'$ ，其中 $W_d$ 是depthwise卷积， $W_c$ 是pointwise卷积，之后被reshape成 $\widehat{Q}\in\mathbb{R}^{\widehat{H}\widehat{W}\times\widehat{C}},\widehat{K}\in\mathbb{R}^{\widehat{C}\times\widehat{H}\widehat{W}},\widehat{V}\in\mathbb{R}^{\widehat{H}\widehat{W}\times\widehat{C}}$ ，最后 $\widehat{F}=W_c\widehat{V}\cdot Softmax(\widehat{K}\cdot \widehat{Q}/\gamma)+F$ ；
DGFN的操作： $\widehat{F}=GELU(W_d^1W_c^1F')\odot W^2_dW_c^2F' + F$ ；
stage2：同时训练三个部分，首先使用 $CPEN_{S1}$ 得到 $Z$ ，之后经过diffusion process得到 $Z_T\in\mathbb{R}^{4C'}$ ， $CPEN_{S2}$ 得到 $D = CPEN_{S2}(PixelUnshuffle(I_{LQ}))$ ，之后进行DM，以D为条件，进行去噪t-1次得到 $\widehat{Z}$ ，和 $CPEN_{S1}$ 得到的 $Z$ 计算损失 $L_{diff} = \frac{1}{4C'}\sum_{i = 1}^{4C'}|\widehat{Z}(i) - Z(i)|$ ，这损失和stage1的损失在一起计算总损失；