文本辅助的图像超分辨率重构 Image Super-Resolution with Text Prompt Diffusion(2023 CVPR PromptSR)

1、目前的一些超分的工作

  • 目前一些盲超分工作开始将文本信息利用起来来做一个prompt的先验:

[1] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution

[2311.16518] SeeSR: Towards Semantics-Aware Real-World Image Super-Resolution (arxiv.org)

[2] Image Super-Resolution with Text Prompt Diffusion

[2311.14282] Image Super-Resolution with Text Prompt Diffusion (arxiv.org)

2、Image Super-Resolution with Text Prompt Diffusion(2023 CVPR PromptSR)

Zheng Chen1, Yulun Zhang2∗, Jinjin Gu3,4, Xin Yuan5, 
Linghe Kong1,* Guihai Chen1, Xiaokang Yang1 1
Shanghai Jiao Tong University, 2ETH Zürich, 
3Shanghai AI Laboratory, 4The University of Sydney, 5Westlake University

2.1 背景和研究动机

  • 从低分辨率图像提取退化的信息是具有挑战性的,这限制了SR模型的表型性能;

  • 为了增强Image SR的性能,一个方法是引入一定的先验信息;

  • 受多模态模型以及文本提示图像处理工作的发展,是否可以将退化先验作为一种文本提示的信息来辅助SR方法

目前的一些盲超分的方法分类

  • 显示模型:去估计退化的参数,比如模糊核和噪声;

  • 隐式模型:学习一个退化模型的分布;

  • 合成大量的复杂的退化,并在这个退化空间上去训练,达到更大的泛化性能;

使用文本信息的一些好处

  • 文本信息是抽象且灵活的;

  • 能够利用现在的一些大的预训练模型;

  • 文本信息的指导可以作为当前SR方法的一个补充。

2.2 创新之处

  • 首次将文本信息作为一种先验来指导SR

  • 设计了一种新的数据集形式,HR-LR-Text

  • 提出了一个网络 PromptSR 来实现文本提示SR,PromptSR 基于扩散模型和预训练的语言模型。

2.3 具体细节

数据集生成:

  • 数据的生成由退化模型和文本表示组成,退化模型使用了像Real-ESRGAN的多种退化的形式,对于文本表示,则通过离散化的分箱操作来描述每个降级操作

  • 离散化分箱:将连续的值进行离散化操作,比如是[Gaussian noise with noise level 1.5]。然而,这种表述很麻烦。此外,过于精确的描述可能会限制普遍性。所以对噪声分了三个等级lightmediumheavy,Gaussian噪声和Poisson噪声均被归纳为noise,所以就可以将最原始的文本表示为[medium noise]

  • Text-Image的形式如图(b)所示,由HR,LR,和文本的Prompt c组成

网络架构:

  • 网络的输入是初始的上采样后的低分图像(通过bicubic),噪声图像Y_T以及文本的prompt描述;

  • Text Encorder是冻结的,使用的预训练好的文本编码器,如CLIP/T5模型,只训练扩散模型,网络的整体是一个U-net架构的去噪框架;

  • 通过交叉注意力的形式将文本特征与图像特征进行Q、K、V的计算;

训练细节:

  • 使用的训练数据是一个text-image的数据集,形式如(c,[y,x]),c是文本描述,y是HR,x为LR

  • 通过t步的扩散噪声来得到一个噪声Y_T

  • 训练的目标函数如下:

实验设置:

  • Blur:iso和aniso两种kernel,kernel width随机的从[7,9,...,21]中选择;

  • Resize:area,bilinear,bicubic interpolation三种,概率分别为[0.3,0.4,0.3];一共有两次的resize;

  • Noise:Gaussion noise的范围为[1,30],Poisson noise的范围为[0.05,3];

  • Compression:JPEG的压缩,等级为[30,95],越高压缩程度越大;

  • 训练数据集:LSDIR,更大规模的数据集,有84991张高分辨率图像;

  • 验证数据集:合成数据集:Urban100、Manga109、LSDIR(val)、DIV2K(val);真实数据集:RealSR、Real45

  • 评价指标:PSNR、SSIM、LPIPS、ST-LPIPS、DISTS、CNNIQA、NIMA

  • 数据集和训练设置:64x64的patch,Adam optimizer,lr=0.0002

2.4 消融实验

  • 对text prompt学习方式的消融,ControlNet是可以根据修改text promtp生成新的图像

  • 对text prompt是否正确对结果影响的可视化消融:

  • 对text prompt形式的消融,一种是内容caption,一种是degradation,一种是两者都包含:

实验表明,只使用degradation的泛化性能和效果最好,因为图像本身是包含了一些语义信息的,两者都用的话会对退化方面的prompt产生一定的不良影响,这是作者认为产生这种原因的结果。

  • 对不同的text encoder的一个消融实验:

综合考虑,作者使用了CLIP模型,且模型的大小与性能的提升并不是成正比的关系。

2.5 效果:

  • 指标效果对比

  • 可视化对比图

### 文本-图像扩散模型概述 文本-图像扩散模型是一种基于机器学习的技术,能够通过输入的文本描述生成高质量的图像。这些模型通常依赖于复杂的神经网络架构以及先进的算法设计,从而实现从随机噪声逐步演化为目标图像的过程。 #### Imagic框架及其应用 Imagic 是一种通用框架,支持与不同类型的生成模型集成[^1]。该方法利用了两个领先的文本到图像扩散模型——Imagen 和 Stable Diffusion 来展示其功能。具体而言,Imagen 的结构由三个独立的部分构成:(i) 用于生成64×64像素图像的基础扩散模型;(ii) 将低分辨率图像提升至256×256像素的第一级超分辨率Super Resolution, SR)模型;(iii) 进一步优化高分辨率图像质量的第二级SR模型。 #### 扩散模型在未知领域中的表现 当面对未见过的数据分布时,例如油画风格的艺术作品而非普通的自然照片,传统的扩散模型可能无法很好地适应这种变化。这是因为它们仅限于训练数据集所覆盖的内容范围之外的情况被定义为“未知域”或“未见域”。因此,在尝试扩展这些技术的应用场景之前,理解并解决这一局限性至关重要[^2]。 #### 性能评估指标TIFA 为了衡量各种文本转图片AI系统的效能,《目录》文档介绍了名为“The TIFA Metric”的新标准体系[^3]。此度量不仅考虑到了最终产物的质量高低,还涉及其他多个维度如语义一致性、视觉吸引力等方面的表现情况分析。 ```python import torch from diffusers import StableDiffusionPipeline model_id = "CompVis/stable-diffusion-v1-4" device = "cuda" pipe = StableDiffusionPipeline.from_pretrained(model_id).to(device) prompt = "a photograph of an astronaut riding a horse" image = pipe(prompt).images[0] image.save("astronaut_rides_horse.png") ``` 上述代码片段展示了如何使用Hugging Face库加载预训练好的Stable Diffusion管道,并指定设备环境后执行简单的文字成像操作实例。 ### 结论 综上所述,文本到图像扩散模型代表了一种前沿的研究方向,它结合了强大的计算能力和精心设计的学习机制来创造前所未有的艺术形式和技术可能性。然而,随着研究深入发展,未来还需要克服更多挑战比如提高跨模态迁移能力等问题才能让此类工具更加广泛适用。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值