论文阅读-DiT：Scalable Diffusion Models with Transformers

原创

已于 2024-04-14 21:37:58 修改 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读

于 2024-04-14 21:17:28 首次发布

本文探讨基于Transformer架构的扩散模型，用其替换U - Net，实现高质量图像生成。介绍了此类扩散模型DIT，研究了网络复杂度与样本质量的关系。阐述了扩散公式、无分类器引导等预备知识，还说明了DiT设计空间，包括补丁化及处理流程。

近来有一些基于扩散模型+transformer的视觉大模型，比如Sora，本文讲的就是背后原理。

前言

本文使用具有Transformer主干的扩散模型，实现高质量图像，如下确实很难分辨：
在这里插入图片描述

提示：以下是本篇文章正文内容，下面案例可供参考

一、摘要

探索了一类基于Transformer架构基础上的扩散模型。用Transfomer架构替换之前的U-Net，通过增加transformer的深度/宽度或input tokens实现比之前所有扩散模型更优秀的表现。

二、介绍

        Transformers推动了机器学习的复兴，过去NLP，CV以及其他许多领域都受影响很大。但图像级生成任务还没有太多应用。扩散模型是图像级生成方法的主流解决方案，不过都是基于U-Net的。
        原始的扩散模型中U-Net主要由resnet组成，不过额外加了空间自注意力块。本文的目的是为以后的生成模型提供一个baseline，并且想证明U-Net的归纳偏置并不重要。同时使用Transformer作为架构，为跨领域任务开辟可能性（确实，比如现在的多模态任务等，都统一在Transformer上）。
        此类扩散模型称为DIT，遵循ViT，与传统卷积网络相比，ViT在视觉识别方面效果更好。此外研究了网络复杂度与样本质量之间的规模化行为，发现网络复杂度（以Gflops度量）与样本质量（以FID度量）之间存在强相关性。

三、相关工作

最低0.47元/天解锁文章