前言
由于大多数基于卷积神经网络或者Attention机制的超分辨模型大部分都是PSNR主导的,即用PSNR作为损失函数进行训练,这会导致超分辨图像过度平滑的问题,也就是超分辨后的图像高频信息不能很好保留,并且超分辨的图像较为固定,对于超分辨这种不适定问题来说不太合适。另外一种超分辨模型是基于GAN进行图像生成,会存在训练困难、模型不稳定的问题。于是论文提出了基于扩散模型的超分辨模型,具有特点如下:①对于一张输入低分辨率的图片可以产生多种高分辨率的结果,并且很好地保留了高频信息;②非常容易训练;③可以灵活地进行图像处理、内容融合、潜在空间内插。
网络模型
区别于DDPM的无条件生成模型,SRDiff是一种条件生成模型,需要以输入的低分辨率图像作为条件,然后生成高分辨率的图片。模型整体分为两个阶段,一个是训练阶段,另外一个是推理阶段,这个是和DDPM的原理是一样的。其中,只有噪声的估计这一步骤中需要神经网络,用的也是Unet的模型。
上图是SRDiff模型的整体结构,中间部分为Unet的噪声估计模型,具体分为如下两个阶段进行分析。
训练阶段