High-Resolution Image Synthesis with Latent Diffusion Models

  1. 问题引入
  • 为了在limited computational resources上训练diffusion model且保持它的生成效果,本文采取在pretrained autoencoder 的latent space进行训练,且在模型架构中加入了cross attention模块来完成conditional生成;
  1. methods
  • Perceptual Image Compression:基于的工作VQGAN,本文1)探究了不同的降采样倍数,降采样倍数太小,perceptual compression不足,太大导致信息损失,最终得出4或者8的倍数比较好;以及2)为了避免arbitrarily high-variance latent spaces,实验了两种正则化方法,一种是和VAE类似的KL-reg,做法是增加KL-penalty来使得learned latents到标准正态分布的空间上,另一种是和VQGAN类似的VQ-reg,只是quantization layer合到了decoder layer当中;在补充材料中的更多信息:定义discriminator D ψ D_\psi Dψ,encoder+decoder D ( E ( x ) ) \mathcal{D}(\mathcal{E}(x)) D(E(x)),1)KL-reg,加入了 q E ( z ∣ x ) = N ( z ; E μ , E σ 2 ) q_\mathcal{E}(z|x) = \mathcal{N}(z;\mathcal{E}_\mu,\mathcal{E}_{\sigma^2}) qE(zx)=N(z;Eμ,Eσ2)和标准正态分布之间Kullback Leibler termKL正则项,此时保持正则项的权重系数小,在训练的时候 z = E μ ( x ) + E σ ( x ) ⋅ ϵ , ϵ ∼ N ( 0 , 1 ) \mathcal{z} = \mathcal{E}_\mu(x) + \mathcal{E}_\sigma(x)\cdot \epsilon,\epsilon\sim\mathcal{N}(0,1) z=Eμ(x)+Eσ(x)ϵ,ϵN(0,1),还进行了rescale操作;2)VQ-reg,加入quantilization layer,其中codebook的维度大以降低正则化的影响,该层absorbed in decoder layer中了;
  • Latent Diffusion Models:在latent space进行diffusion model的训练;
  • 还在原始的unet中加入了cross attention来进行conditional;
### Stable DiffusionLatent Diffusion Models (LDM) 的相关学术论文 Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models, LDM)的文本到图像生成系统,其核心思想在于利用潜在空间中的高效表示来加速扩散过程并提升生成质量[^1]。以下是几篇与 Stable Diffusion 及潜伏扩散模型密切相关的学术论文: #### 1. **High-Resolution Image Synthesis with Latent Diffusion Models** 这篇论文详细介绍了如何通过潜在扩散模型实现高分辨率图像合成的方法。作者提出了将扩散模型应用于潜在空间的概念,从而显著降低了计算复杂度,并提高了生成图像的质量和多样性[^3]。 #### 2. **Denoising Diffusion Probabilistic Models (DDPM)** 虽然 DDPM 并不直接涉及潜在空间的应用,但它奠定了扩散模型的基础理论框架。该研究展示了如何通过逐步去噪的过程生成高质量的数据样本,为后续的研究提供了重要的启发[^4]。 #### 3. **Improved Techniques for Training Score-Based Generative Models** 这篇文章讨论了分数匹配方法在训练生成模型中的应用,这些技术对于优化扩散模型的表现至关重要。尽管它并未专注于潜在空间建模,但其中提到的一些改进策略可以被迁移到 LDM 中以增强性能[^2]。 #### 4. **Perceptual Quality Metrics for Compressed Images Using Deep Learning** 此工作探索了感知压缩权衡问题,在实验部分特别分析了不同下采样因子 f 对结果的影响。这对于理解 Stable Diffusion 如何处理细节保留具有重要意义。 #### 5. **Super-Resolution with Latent Diffusion Models** 超分辨能力是许多现代生成系统的必备功能之一。本文描述了一种新颖的方式——借助于 LDM 实现高效的超级解析操作,这同样适用于其他类型的媒体内容创作场景[^3]。 ```python import torch from diffusers import StableDiffusionPipeline model_id = "runwayml/stable-diffusion-v1-5" pipe = StableDiffusionPipeline.from_pretrained(model_id) prompt = "A beautiful landscape painting under sunset." image = pipe(prompt).images[0] image.save("output_image.png") ``` 以上代码片段演示了如何加载预训练好的 Stable Diffusion 模型并通过简单的 API 调用来生成一张由给定提示语所决定的艺术风格图片。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值