Taming Transformers for High-Resolution Image Synthesis

最新推荐文章于 2025-02-05 22:17:32 发布

尔呦

最新推荐文章于 2025-02-05 22:17:32 发布

阅读量544

点赞数 22

分类专栏： paper reading 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/143081502

版权

paper reading 专栏收录该内容

22 篇文章

订阅专栏

问题引入

CNN结构有inductive bias，会更关注于局部的交互，但是effective，transformer结构computational但是可以进行long-range的interaction，本文想要做的就是结合两种结构的优点来完成超大尺寸图片的合成；
首先使用CNNs来学习context rich vocabulary(codebook)，之后使用transformer来model composition；
总的来说就是transformer的时间复杂度和sequence lence成平方的关系，所以将transformer based的方法直接扩展到高分辨率图片的生成计算复杂度很大，所以本文提出首先使用CNNs来得到一个codebook，之后再这个空间上使用transformer based的方法；

methods

Codebook的获得：discrete codebook $Z=\{z_k\}^K_{k = 1}\subset\mathbb{R}^{n_z}$ ， $n_z$ 是codebook的code维度，encoder $E$ ，decoder $G$ ，给出一张图片 $x$ ，首先经过encoder得到 $\hat{z} = E(x)\in\mathbb{R}^{h\times w\times n_z}$ ，之后对应每一个 $\hat{z}_{ij}\in\mathbb{R}^{n_z}$ ，寻找到它在codebook中最近的一个code $z_k$ 组成 $z_q = q(\hat{z}):=\left( argmin_{z_k\in Z}||\hat{z}_{ij}-z_k|| \right)\in\mathbb{R}^{h\times w\times n_z}$ ，之后将 $z_q$ 经过decoder得到reconstruction的结果 $\hat{x}=G(z_q) = G(q(E(x)))$ ， $q$ 是一个量化的操作，是不可微的，此处通过straight through gradient estimator实现，也就是直接将decoder的梯度复制到encoder来使得模型可以端到端的训练，损失函数是 $L_{VQ}(E,G,Z) = ||x - \hat{x}||^2 + ||sg[E(x)]-z_q||^2_2 + \beta||sg[z_q]-E(x)||^2_2$ ，其中第一项是重建损失， $sg[\cdot]$ 是stop gradient的操作；VQGAN在VQVAE的基础上增加了discriminator以及perceptual loss， $L_{GAN}(\{E,G,Z\},D) = [\log D(x) + \log(1 - D(\hat{x}))]$ ，总的优化目标： $arg\ min_{E,G,Z}max_D\mathbb{E}_{x\sim p(x)}\left[ L_{VQ}(E,G,Z) + \lambda L_{GAN}(\{E,G,Z\},D) \right]$ ，其中 $\lambda = \frac{\nabla_{G_L}[L_{rec}]}{\nabla_{G_L}[L_{GAN}] + \delta}$ ；
有了codebook，一张原始图片量化之后 $z_q = q(E(x))\in\mathbb{R}^{h\times w\times n_z}$ ，进行展平得到 $s\in\{0,\cdots,|Z| - 1\}^{h\times w},s_{ij}=k,(z_q)_{ij} = z_k$ ，于是图片的生成任务建模成自回归式的next index prediction的任务