Latent Diffusion 论文笔记

fishslot

已于 2022-11-24 14:07:08 修改

阅读量8.6k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：我的论文笔记文章标签：论文阅读深度学习

于 2022-09-14 23:58:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/goryghost/article/details/126862782

我的论文笔记专栏收录该内容

30 篇文章

订阅专栏

这篇博客深入解析了Latent Diffusion模型，介绍了其结构，包括自编码器与Diffusion模型的联合训练、基于LPIPS的压缩与感知损失、VQ方法的应用以及优化目标。模型通过联合学习和自编码器的VQ层实现了高分辨率图像的高效生成。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Latent Diffusion 论文笔记

论文：

High-Resolution Image Synthesis with Latent Diffusion Models

https://arxiv.org/abs/2112.10752

https://github.com/CompVis/latent-diffusion

模型结构

在这里插入图片描述

简单来说，就是先用一个编码器 $\mathcal{E}$ 把图片压缩到隐空间（ $H\times W\times3\to h\times w\times c$ ），然后让 Diffusion 模型 $\epsilon_\theta$ 在压缩后的特征上工作，最后用解码器 $\mathcal{D}$ 还原成一个图片。

训练分成两个阶段，先训练自编码器，再训练 Diffusion 。

训练自编码器的时候用 LPIPS 做约束。

自编码器实际上是 VQ-VAE ，只是 VQ 层放到了解码器里。也就是说， Diffusion 阶段操作的是 VQ 前的隐空间特征。

根据论文的描述，编码器和解码器应该是卷积结构，没有注意力层的，只有 UNet 里面有注意力层。

可以看到 diffusion 的这部分使用了 UNet 架构，并且结合了 cross-attention

他提到 $\epsilon_\theta$ 中的 cross-attention 层的 K 和 V 是由 $\tau_\theta$ 产生的，Q 是由 $z_T$ 产生的

训练时 $\epsilon_\theta$ 和 $\tau_\theta$ 是联合学习的

基于感知损失的图像压缩

压缩就是一个编码器一个解码器，编码器把图像映射到隐空间的特征，解码器把特征映射为图像

注意图像是 $H\times W\times3$ 的，特征是 $h\times w\times c$ 的

我们的感知压缩模型是基于以前的工作，包括一个由感知损失和基于补丁的对抗性目标组合训练的自动编码器。

他的感知损失就是指 LPIPS
patch-based 应该是指 PatchGAN 对抗损失吧。

也就是说，自编码器用了两个损失，一个是LPIPS感知损失，一个是 patch-based 对抗损失。

两阶段图像合成

两阶段应该指的就是，压缩性学习和生成性学习分开。

他们尝试了两种对隐空间的约束，一种是用 KL 散度约束到正态分布（就和 VAE 一样），一种是 VQ 方法（和VQ-GAN 一样，只是量化层放到了 decoder 里）

他们发现使用 VQ 方法更好

应该就是说，他们的编码器和解码器之间用了一个 VQ 层

他提到，自回归需要较大的运算量，由此会导致特征空间维数必须较少，由此会导致编码器和解码器需要更多的参数去拟合先验（数十亿参数）

为了减少运算量，同时减少特征对原图像的压缩率（也就是增加特征维数），他们的自编码器使用卷积作为backbone

优化目标

自编码器的优化：

似乎就是用 LPIPS 用来衡量重建损失，以此训练一个带 VQ 层的自编码器。

Diffusion 模型的优化目标：

$L_{LDM} := \mathbb{E} _{\mathcal{E}(x),y,\epsilon∼\mathcal{N}(0,1),t} \left[\left \| \epsilon − \epsilon_\theta(z_t, t, \tau_\theta(y)) \right\|^2_2\right]$

看起来和原版的 Diffusion Model 挺像的，只是多了个 $\tau_\theta$ 函数。

注意 $\epsilon_\theta$ 是工作在隐空间中的，这意味着 $z_t$ 是隐空间中的特征， $\epsilon_\theta$ 的输出也是隐空间中的特征，训练也是在隐空间中发生的。

其中 $\tau_\theta$ 是一个转换器，将（多模态的）监督信号 $y$ 转换为隐空间中的监督信号，是一个需要学习的模型。根据不同模态的 $y$ 可以设计不同的 $\tau_\theta$

训练时 $\epsilon_\theta$ 和 $\tau_\theta$ 是联合学习的

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。