Hierarchical Integration Diffusion Model for Realistic Image Deblurring

原创已于 2025-04-05 22:09:39 修改 · 395 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-03-29 17:01:20 首次发布

论文链接 arxiv

参考优快云

由于 natural prior(比如暗通道先验,大气散射模型等等) 很难描述所有的现实复杂情况,只能对某一类图像退化进行建模. 而 Diffusion 可以对复杂先验进行学习. 而 latent diffusion 极大地减少了参数量, 为后续的工作提供了可能;

此外, DM 会生成一些不必要的 artifect, 造成低 psnr,因此将 Transformer 作为 basemodel;

DMs generate a more accurate target distribution without encountering optimization instability or mode collapse;

请添加图片描述

采用 Diffusion 作为 Restormer 的先验知识模型,用来指导训练,从而提升去模糊效果.

请添加图片描述

第一阶段: 将真实图像压缩为 Transformer 的先验特征，此阶段训练 Transformer 和 LE 进行特征压缩。

第二阶段：训练潜在扩散模型生成无需真实图像的先验特征，同时联合训练 Transformer 和扩散模型以提升性能。

推理过程：首先通过 LE 将输入的模糊图像压缩成条件潜在表示。其次通过条件化的扩散模型生成先验特征。最后利用 Transformer 在先验特征的指导下重构去模糊图像。

为什么要采用两阶段训练? 而不是直接进行第二阶段的训练?

答: 阶段一的主要目的是得到 LE 的参数,为了让像素空间映射到一个固定的 latent space. 如果在第二阶段中, 没有固定 LE 的参数,那么训练的时候就会不断地变换 latent space, 那么 Diffusion 的加噪就失去了意义.

为什么要用 DM 作为先验知识模型,不用不可以吗, 直接将 gt 当作多尺寸的先验知识.

答: 在训练阶段一确实是这么做的,直接对 gt 进行 LE 转换后下采样为 z1,z2,z3; 在阶段二也是将 gt 经过 DM 的输出当作先验知识. 但是我们在推理阶段是看不到 gt 的,因此需要从输入和随机噪声中得到先验知识, 这样就用上了阶段二训练的 denose network.

联合训练的目的是?为什么二阶段不只训练 denose network ?

答: Because there is slight deviation between the predicted prior feature and the actual prior z. 直观上理解就是先验知识改变了, Transformer 参数也适当的调整一下会得到更好的效果.

为什么 DM 学到的东西可以作为先验知识?

答: 这篇文章中 Denoise network 可以从模糊的照片和一个随机的噪声中还原出 Gt 干净图像, 这就表明了它能够学到一些语义信息.