视觉文生图模型学习过程

蜡笔新小

已于 2025-04-14 21:40:26 修改

阅读量833

点赞数 6

分类专栏：深度学习文章标签： stable diffusion 学习人工智能

于 2024-09-17 11:20:36 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_52945258/article/details/142300478

版权

diffusion model

讲解：

【较真系列】讲人话-Diffusion Model全解(原理+代码+公式)_哔哩哔哩_bilibili

stable diffusion【CVPR2022】

原始论文： https://arxiv.org/pdf/2112.10752

讲解：【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models_stable diffusion论文-优快云博客

代码：

GitHub - CompVis/stable-diffusion: A latent text-to-image diffusion model

Imagen【NeurIPS 2022】

论文：https://arxiv.org/pdf/2205.11487

讲解：https://zhuanlan.zhihu.com/p/640941181

代码：GitHub - lucidrains/imagen-pytorch: Implementation of Imagen, Google's Text-to-Image Neural Network, in Pytorch

其实挺简单的，就是在后面加入了一个超分的部分。

1. 文本编码：T5模型

2. classifier-free guidance：

3. 对unet进行改进，减小训练过程的计算开销。

4. text-image(base model:64*64)；image-image(超分model:64*64->256*256)；image-image(超分model:256*256->1024*1024) 三个模块。

在两个超分模块中，除了text embeddings作为条件外，作者还将低分辨率的输出图像作为控制生成过程的条件之一。而对于文本编码的使用，则是先concat到图像后面，然后再作cross attention处理

Dreambooth【CVPR 2023】

论文：https://arxiv.org/pdf/2208.12242v1

讲解：【文生图】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation-优快云博客
感觉就是sd换了一个损失函数，然后又加上了sr模块。

语言模型也是使用的T5

Textual Inversion

讲解：https://zhuanlan.zhihu.com/p/621437374

类似于dreambooth，这个是输入几张图片，训练文本表示的embedding

IP-Adapter【未发表】

代码：GitHub - tencent-ailab/IP-Adapter: The image prompt adapter is designed to enable a pretrained text-to-image diffusion model to generate images with image prompt.

其实还挺简单的，它是有两个prompt，分别是image和text（可以不要）

两个prompt分别经过cross-attn，并把结果相加后输入到unet中。

SnapFusion【NeurIPs 2023】

讲解：https://zhuanlan.zhihu.com/p/650739412
论文：https://arxiv.org/pdf/2306.00980
创新点：

1. 改进unet，将里面的结构去掉，分析效果，然后找到去掉结构后对网络影响最小的那几块使用；

2. 蒸馏，对DDPM的步数进行蒸馏

3. VAE Decoder 优化，使用蒸馏
感觉改进不是很多。

对于文本编码器，好像是用的clip，和sd一样，没有重点在文章中找。

DeepCache【CVPR2024】

论文：https://arxiv.org/pdf/2312.00858

讲解：https://zhuanlan.zhihu.com/p/673114336

代码：GitHub - horseee/DeepCache: [CVPR 2024] DeepCache: Accelerating Diffusion Models for Free

创新点：

找的角度很好，改进并不大，效果很好，就是将上一时刻的特征缓存下来，然后后续直接使用。

对于文本编码器，使用的是clip。

DiT【ICCV 2023】

论文：https://arxiv.org/pdf/2212.09748

讲解：AIGC专栏9——Scalable Diffusion Models with Transformers （DiT）结构解析_scalable diffusion models with transformers pdf-优快云博客

代码： GitHub - facebookresearch/DiT: Official PyTorch Implementation of "Scalable Diffusion Models with Transformers"

DiT只能按照类别进行图片生成，可以生成imagenet中的1000类。主要的创新点感觉就是改进了一个transformer，其余的没有什么太大的变化.应证了实习的时候和同事们聊的，多模态现在几乎使用一个mlp进行编码了。这边也是将文本数据进行mlp编码。

DiT还沿用了OpenAI的Improved DDPM扩散思想，与原始DDPM相比不再采用固定的方差，而是采用网络来预测方差。

Stable diffusion3【未发表】

讲解：https://zhuanlan.zhihu.com/p/685457842
论文：

最低0.47元/天解锁文章

博客等级

码龄4年

49
原创

55
点赞

165
收藏

24
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

四大卷积设计
优快云-Ada助手: Python入门技能树或许可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
bug解决：AssertionError: No inf checks were recorded for this optimizer.
chanruoburuo: 我也遇到了这个问题,摸索了半天终于解决了,原因可能是骨干网络采用了冻结训练,而且从骨干网络出来的张量直接进入只针对该没有梯度回传的张量算损,所以我把Freeze_train设为False,问题自动解决.
bug解决：AssertionError: No inf checks were recorded for this optimizer.
chanruoburuo: 我也遇到了这个问题,摸索了半天终于解决了,原因可能是骨干网络采用了冻结训练,而且从骨干网络出来的参数直接进入算损流程,而且只针对没有梯度回传的张量算损,所以我把Freeze_train设为False,问题自动解决.
bug解决：AssertionError: No inf checks were recorded for this optimizer.
兔儿不想和你唠嗑�: 想问下，我看了我的好像都float32还有啥改法啊
bug解决：AssertionError: No inf checks were recorded for this optimizer.
JaySRJ7: 博主您好，想咨询一下这个问题最后是怎么解决的？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。