Scalable Diffusion Models with Transformers

最新推荐文章于 2025-06-04 23:56:57 发布

尔呦

最新推荐文章于 2025-06-04 23:56:57 发布

阅读量891

点赞数 7

分类专栏： Basic 文章标签：深度学习

版权

13 篇文章

订阅专栏

patchify：原图片 $I\in\mathbb{R}^{H\times W\times 3}$ 经过autoencoder之后得到 $z\in\mathbb{R}^{\frac{H}{8}\times \frac{W}{8}\times 4}$ ，之后经过patchify，得到 $T\times d$ 的sequence，其中 $d$ 是每一个patch的embedding的维度， $T$ 由patch的大小 $p$ 来决定，之后会有position encoding(frequency-based positional embeddings (the sine-cosine version))，之后就是一系列transformer sequence；
除noisy latents以外额外的输入：timesteps t, class labels c, natural language, etc，分别尝试了四种变种：
In-context conditioning：对t和c进行embedding之后将其作为输入额外的token，和image token同等看待，类似与vit的cls tokens；
Cross-attention block：将t和c的embedding进行concat，之后再transformer block中的self attention之后添加cross attention，在这部分参与计算；
Adaptive layer norm (adaLN) block：用adaLN替换transfromer block中的layernorm layer，不是直接学习dimensionwise scale and shift parameters $\gamma,\beta$ ，而是将t和c的embedding进行相加之后经过mlp回归得到；
adaLN-Zero block：除了回归 $\gamma,\beta$ ，还回归dimensionwise scaling parameters $\alpha$ ，在residual connection之前使用，初始化mlp使得初始输入 $\alpha$ 为0vector，该操作相当于将dit block初始化为identity矩阵；
最后dit block的输出为noise和diagonal covariance prediction；