论文阅读-DiT:Scalable Diffusion Models with Transformers

本文探讨基于Transformer架构的扩散模型,用其替换U - Net,实现高质量图像生成。介绍了此类扩散模型DIT,研究了网络复杂度与样本质量的关系。阐述了扩散公式、无分类器引导等预备知识,还说明了DiT设计空间,包括补丁化及处理流程。

近来有一些基于扩散模型+transformer的视觉大模型,比如Sora,本文讲的就是背后原理。


前言

本文使用具有Transformer主干的扩散模型,实现高质量图像,如下确实很难分辨:
在这里插入图片描述


提示:以下是本篇文章正文内容,下面案例可供参考

一、摘要

探索了一类基于Transformer架构基础上的扩散模型。用Transfomer架构替换之前的U-Net,通过增加transformer的深度/宽度或input tokens实现比之前所有扩散模型更优秀的表现。

二、介绍

        Transformers推动了机器学习的复兴,过去NLP,CV以及其他许多领域都受影响很大。但图像级生成任务还没有太多应用。扩散模型是图像级生成方法的主流解决方案,不过都是基于U-Net的。
        原始的扩散模型中U-Net主要由resnet组成,不过额外加了空间自注意力块。本文的目的是为以后的生成模型提供一个baseline,并且想证明U-Net的归纳偏置并不重要。同时使用Transformer作为架构,为跨领域任务开辟可能性(确实,比如现在的多模态任务等,都统一在Transformer上)。
        此类扩散模型称为DIT,遵循ViT,与传统卷积网络相比,ViT在视觉识别方面效果更好。此外研究了网络复杂度与样本质量之间的规模化行为,发现网络复杂度(以Gflops度量)与样本质量(以FID度量)之间存在强相关性。

三、相关工作

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值