近来有一些基于扩散模型+transformer的视觉大模型,比如Sora,本文讲的就是背后原理。
前言
本文使用具有Transformer主干的扩散模型,实现高质量图像,如下确实很难分辨:

提示:以下是本篇文章正文内容,下面案例可供参考
一、摘要
探索了一类基于Transformer架构基础上的扩散模型。用Transfomer架构替换之前的U-Net,通过增加transformer的深度/宽度或input tokens实现比之前所有扩散模型更优秀的表现。
二、介绍
Transformers推动了机器学习的复兴,过去NLP,CV以及其他许多领域都受影响很大。但图像级生成任务还没有太多应用。扩散模型是图像级生成方法的主流解决方案,不过都是基于U-Net的。
原始的扩散模型中U-Net主要由resnet组成,不过额外加了空间自注意力块。本文的目的是为以后的生成模型提供一个baseline,并且想证明U-Net的归纳偏置并不重要。同时使用Transformer作为架构,为跨领域任务开辟可能性(确实,比如现在的多模态任务等,都统一在Transformer上)。
此类扩散模型称为DIT,遵循ViT,与传统卷积网络相比,ViT在视觉识别方面效果更好。此外研究了网络复杂度与样本质量之间的规模化行为,发现网络复杂度(以Gflops度量)与样本质量(以FID度量)之间存在强相关性。
三、相关工作

本文探讨基于Transformer架构的扩散模型,用其替换U - Net,实现高质量图像生成。介绍了此类扩散模型DIT,研究了网络复杂度与样本质量的关系。阐述了扩散公式、无分类器引导等预备知识,还说明了DiT设计空间,包括补丁化及处理流程。
最低0.47元/天 解锁文章
3026

被折叠的 条评论
为什么被折叠?



