DALL-E2原理解读——大模型论文阅读笔记五

DALL-E2利用CLIP的文本特征,通过级联的扩散模型生成图片。它首先用CLIP文本嵌入输入先验模型,生成图像嵌入,再用此嵌入条件化扩散解码器以创建图像。CLIP模型在训练过程中保持冻结。该技术可生成不同尺寸的高清图片,并支持多样化的图像变换。
部署运行你感兴趣的模型镜像

论文:https://cdn.openai.com/papers/dall-e-2.pdf
项目:https://openai.com/dall-e-2

一. 主要思想

利用CLIP提取的文本特征,级联式的生成图片。第一阶段通过prior将文本特征与图像特征进行对齐,第二阶段用扩散模型将视觉特征转化为生成图片。整体来看,DALL-E2就是CLIP与扩散模型的结合,因此作者也将其命名为unCLIP。

二. 算法框架

在这里插入图片描述
如上图所示,unCLIP是一个基于CLIP模型的文本到图像生成模型。下面是对unCLIP的高级概述:在虚线上方,我们描述了CLIP模型的训练过程,通过这个过程我们学习了一个用于文本和图像的联合表示空间。
在虚线下方,我们描述了文本到图像生成的过程:首先,将CLIP文本嵌入输入到一个自回归或扩散先验模型中,以生成一个图像嵌入;然后,使用这个嵌入来条件化一个扩散解码器,生成最终的图像。需要注意的是,在先验模型和解码器的训练过程中,CLIP模型是被冻结的,不会进行更新。
以上是对UnCLIP模型的整体概述。UnCLIP的核心思想是利用CLIP模型的文本嵌入来生成对应的图像,从而实现文本到图像的转换。这个过程通过先验模型和解码器的联合训练来实现。

三. 应用

该算法可以用文本描述生成图片,由于扩散模型是Unet结构,理论上可以生成各种尺寸的图片,包括高清大图。如下图所示:
在这里插入图片描述
当然也可以输入图片,生成各种类似而又多样的图片。如下图所示:
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

ComfyUI

ComfyUI

AI应用
ComfyUI

ComfyUI是一款易于上手的工作流设计工具,具有以下特点:基于工作流节点设计,可视化工作流搭建,快速切换工作流,对显存占用小,速度快,支持多种插件,如ADetailer、Controlnet和AnimateDIFF等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

guopeiAI

请博主加个火腿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值