【图像生成1】Latent Diffusion Models 论文学习笔记

一、背景

本文主要记录一下使用 LDMs 之前,学习 LDMs 的过程。

二、论文解读

Paper:[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models 

1.  总体描述

        LDMs 将传统 DMs 在高维图像像素空间(Pixel Space)上的 diffusion 操作转移到低维潜空间(Latent Space)进行,大大降低了训练和推理所需计算资源,生成的图像细节更丰富,更真实,且能用于生成高分辨率(百万级像素)图像;同时引入的条件控制机制 Conditioning Mechanisms 使模型能够用于多种条件图像生成任务,如图像超分、图像修复、语义合成(文生图、图生图,布局生图)。

        后面这几位作者又提出了检索增强扩散模型(Retrieval Augmented Diffusion Models, RDMs)并将其用于 LDMs 的文生图任务中,大概作用就是进一步降低生成图像所需计算资源,提升生成图像的质量。

2. LDMs

2.1 主体框架

        通过框架图可知,在 LDMs 之前需要先训练一个 Autoencoder,包含一个编码器  和一个解码器 ,输入图像  经过编码器  得到其潜在空间的特征表示 ,解码器  再将  从潜在空间重构回像素空间得到生成后的 ,上述过程(对应框架图左部)可表示为:

Encode:

Decode:

其中降采样因子 ,且为 2 的幂次,即 

        正向扩散(加噪)过程和反向去噪(重构)过程均发生在潜在空间,重构过程中通过加入一个条件降噪自编码器  (UNet  cross attention,对应框架图中部)可以将输入条件  扩展到不同形态(对应框架图右部),比如文本、语义图、图像等,进而可以实现如文生图、布局生图、图生图等多种生成任务。

2.2 感知图像压缩(Perceptual Image Compression)

        现有 DMs 的生成过程可以视为一个压缩比(感知有效 bit 与图像维度之比)和失真率的平衡问题(如上图所示),压缩比越低(高),说明图像中感知有效的 bit 越少(多),因而生成的图像失真程度越大(小)。其学习过程大致可分为两个阶段:感知压缩阶段和语义压缩阶段。在感知压缩阶段,模型会舍弃图像中的高频信息而只学习一些语义变化,在语义压缩阶段,生成模型会学习数据的语义和概念信息(高维抽象的信息)。

        DMs 虽然可以忽略图像中一些在感知上无关紧要的信息,但模型的计算和优化过程仍然在像素空间中,这就导致如果合成一些高分辨率图像,空间维度就会非常高,在计算时间和计算资源上的花费会非常昂贵(heavy cost)。 

        于是

### Stable DiffusionLatent Diffusion Models (LDM) 的相关学术论文 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models, LDM)的文本到图像生成系统,其核心思想在于利用潜在空间中的高效表示来加速扩散过程并提升生成质量[^1]。以下是几篇与 Stable Diffusion 及潜伏扩散模型密切相关的学术论文: #### 1. **High-Resolution Image Synthesis with Latent Diffusion Models** 这篇论文详细介绍了如何通过潜在扩散模型实现高分辨率图像合成的方法。作者提出了将扩散模型应用于潜在空间的概念,从而显著降低了计算复杂度,并提高了生成图像的质量和多样性[^3]。 #### 2. **Denoising Diffusion Probabilistic Models (DDPM)** 虽然 DDPM 并不直接涉及潜在空间的应用,但它奠定了扩散模型的基础理论框架。该研究展示了如何通过逐步去噪的过程生成高质量的数据样本,为后续的研究提供了重要的启发[^4]。 #### 3. **Improved Techniques for Training Score-Based Generative Models** 这篇文章讨论了分数匹配方法在训练生成模型中的应用,这些技术对于优化扩散模型的表现至关重要。尽管它并未专注于潜在空间建模,但其中提到的一些改进策略可以被迁移到 LDM 中以增强性能[^2]。 #### 4. **Perceptual Quality Metrics for Compressed Images Using Deep Learning** 此工作探索了感知压缩权衡问题,在实验部分特别分析了不同下采样因子 f 对结果的影响。这对于理解 Stable Diffusion 如何处理细节保留具有重要意义。 #### 5. **Super-Resolution with Latent Diffusion Models** 超分辨能力是许多现代生成系统的必备功能之一。本文描述了一种新颖的方式——借助于 LDM 实现高效的超级解析操作,这同样适用于其他类型的媒体内容创作场景[^3]。 ```python import torch from diffusers import StableDiffusionPipeline model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id) prompt = "A beautiful landscape painting under sunset." image = pipe(prompt).images[0] image.save("output_image.png") ``` 以上代码片段演示了如何加载预训练好的 Stable Diffusion 模型并通过简单的 API 调用来生成一张由给定提示语所决定的艺术风格图片。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值