【文章系列解读】AI绘图必读模型:Derambooth和Textual Inversion

文章介绍了DreamBooth方法,通过微调文本到图像扩散模型,使用保留损失防止过拟合,实现特定主题的图像生成。同时提到了TextualInversion技术,它通过学习新概念的latent空间来控制生成结果,提供精细的图像控制。这两种方法都允许从少量样本中创建个性化的图像生成模型。
部署运行你感兴趣的模型镜像

1. Dreambooth

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (2022.8)

总体而言,文章想要实现的效果是输入3~5张图片(目前看是单物体的),通过文本“a [v] [class]”把输入的图片和prompt绑定起来,对模型进行finetune(例如图片上坐上,输入是若干张同一只狗的图片,以及a [v] [dog])。

为了避免模型过拟合在输入的狗上,文章引入了保留损失。保留损失意指,先通过预训练模型生成若干张狗这一类的图片。在训练的时候既指定了输入的狗,又能保留其他狗,这个域内其他品种的特征。

1682564738586

3.1 Dream Booth微调过程

image-20230427111144125

图1的上半部分,做了以下几件事:

1、准备描述的句子(“一只松狮狗”)和对应句子的3-5张图片(3-5张松狮犬.jpg)

2、句子(Text)和图片(加噪声后的松狮.jpg)输入到SD模型中的编码器中进行编码,最后由解码器解码成图片

3、生成的图片和原图进行比较,通过损失函数对生成器进行奖惩,更新权值。

图1的下半部分和上半部分几乎一致,只是去除句子中的目标特征(松狮)变成(一只狗),并提供对应图片(狗.jpg)进行训练。这部分的训练在论文中表示为扩散模型的先验知识的保留,假设我们只提供3-5张松狮图去进行微调,很容易造成生成结果的过拟合,导致失去原本基底模型的多样性能力。简单来说,微调成松狮模型后,模型生成其他狗狗的能力就弱化了(当然这可能也是我们需要的)。

下面是DreamBooth的整体损失函数:
Ex,c,ϵ,ϵ′,t[wt∥x^θ(αtx+σtϵ,c)−x∥22+λwt′∥x^θ(αt′xpr+σt′ϵ′,cpr)−xpr′22,Z2] \begin{array}{l} \mathbb{E}_{\mathbf{x}, \mathbf{c}, \boldsymbol{\epsilon}, \boldsymbol{\epsilon}^{\prime}, t}\left[w_{t}\left\|\hat{\mathbf{x}}_{\theta}\left(\alpha_{t} \mathbf{x}+\sigma_{t} \boldsymbol{\epsilon}, \mathbf{c}\right)-\mathbf{x}\right\|_{2}^{2}+\right. \\ \left.\lambda w_{t^{\prime}} \| \hat{\mathbf{x}}_{\theta}\left(\alpha_{t^{\prime}} \mathbf{x}_{\mathrm{pr}}+\sigma_{t^{\prime}} \boldsymbol{\epsilon}^{\prime}, \mathbf{c}_{\mathrm{pr}}\right)-\mathbf{x}_{\mathrm{pr}}{ }^{\prime 2}{ }^{2}, \mathrm{Z}^{2}\right] \end{array} Ex,c,ϵ,ϵ,t[wtx^θ(αtx+σtϵ,c)x22+λwtx^θ(αtxpr+σtϵ,cpr)xpr′22,Z2]
前半部分,是松狮图的损失函数:x 是原图, (atx+σtϵ)\left(a_{t} x+\sigma_{t} \epsilon\right)(atx+σtϵ) 是加噪后的图,xθ^\hat{x_{\theta}}xθ^ 是扩散模型的去噪方法,它接收噪声图和文字,生成去噪后的图。通过L2像素损失对比 x(atx+σtϵ)\left(a_{t} x+\sigma_{t} \epsilon\right)(atx+σtϵ) 的差异。

后半部分,是狗图的损失函数:结构和前者一致,通过加入 λ\lambdaλ 来控制影响权重,论文中表示,当 λ=1\lambda=1λ=1 时,3-5张图片在1000次的训练后,仍旧获得不错的泛化结果。

image-20230427112058611

3.2 细节展示

输入**(Text+Image),输出(Image)的过程,直接利用了扩散模型的能力去实现。**

下面仔细讲讲这里发生了什么?这里也可以进一步了解一下扩散模型。

油管大佬关于DreamBooth微调过程示意图 https://www.youtube.com/watch?v=dVjMiJsuR5o

1、对于句子来说,每一个字会被拆分,压扁(flaten)到一个数组里。

2、对于图片来说,它分别被加噪n步n-1步,生成两张噪声图 InI_{n}InIn−1I_{n-1}In1InI_{n}In 被输入到扩散模型中,且以文字做为条件引导,通过解码器(VAE)生成一张图片 IgenI_{gen}IgenIgenI_{gen}Igen 会与 In−1I_{n-1}In1 通过L2损失函数作比较,以两者下一次生成的结果更相似作为目标,进行权重的调整。

3、这个过程不断重复,损失函数的值会不断震荡变小,最终生成的图片就很像原图了。同时,用于条件引导的句子也被模型学习了(这种方式和Condition GAN很像,Text即Condition),下次当这些词与一张面目全非的噪声图一起输入时,就能一层一层’去噪’成关键词背后指代的图片了

最后,我们看一下对应sd-webuidreambooth的训练设定。这下就明白dataset和classification指的数据到底时什么了吧。

但实操中,仍旧需要我们自己去实验,到底要不要加入分类数据。结合原理与消融实验能更好理解输入输出的前因后果。毕竟机器学习很玄学。

(这么说来,我这篇文章也没啥意义,还得自己试)

1682566132304

2. Textual Inversion

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion (2022.8)

AI画画:Textual Inversion, Hypernetwork, Dreambooth

Textual Inversion:它根据模型引用给定的图像并选择最匹配的图像。做的迭代越多越好。通过寻找一个 latent 空间来描述一个近似训练图的复杂概念,并将该空间分配给关键字。Textual Inversion 作为扩展当前模型的迷你“模型”。解析 prompt 时,关键字会利用嵌入来确定要从中提取哪些标记及其相关权重。训练只是找出代表源材料所需的正确标记

Hypernetwork:它会改变图像的整个输出,而无需在提示中调用它来浪费您宝贵的token,它可以在您的设置选项卡中进行设置,该选项卡将自动应用于您的所有图像。

Dreambooth:它将给定内容插入到输出中,缺点是如果你用 Dereambooth,它会用训练图替换所有相似的对象。模型通过N步学习,学会给定图像与新关键字之间的关系;此关键字在标记化后,将类似于 latent 空间。

Textual Inversion是一种从少量示例图像中捕获新概念的技术,是一种用于控制文本到图像的管线。它通过在embedding space管线的文本编码器中学习新的“单词”来实现此目的。然后可以在text prompts中使用这些特殊单词,以实现对结果图像的非常精细的控制。(最新研究发现,只要给AI喂3-5张图片,AI就能抽象出图片里的物体或风格,再随机生成个性化的新图片。)

image-20230427165750972

您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑
Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型,主要支持多图编辑,包括“人物+人物”、“人物+商品”等组合玩法

<think>嗯,用户这次的问题非常具体且有深度,ta显然是想系统掌握StableDiffusion各类微调模型的技术本质。从引用[1][3]的对比需求,到引用[4]的技术原理描述,用户应该是个技术实践者,可能正在犹豫该选择哪种方案来训练自己的模型。用户上次提问时我已经整理了对比表格,但这次更聚焦原理教程。需要特别注意:1)Checkpoint本质不是微调模型而是完整模型快照,这点在引用[2]明确提到;2)TextualInversion的"关键词替代"特性在引用[4]的植入技术描述里很关键。技术原理部分要突出互补性:Dreambooth是暴力全参调整但资源消耗大;LoRA用低秩分解实现轻量化;Hypernetworks通过外部网络扩展模型TextualInversion则完全不动模型只改embedding。这点在引用[3]的论坛讨论中有佐证。教程设计必须包含核心痛点解决方案:比如Dreambooth的OOM问题对应16GB显存配置,LoRA的模型兼容性要强调基模型匹配(引用[3]末尾特别提到这点)。用户可能实际在本地跑过训练,才会关注32张显卡的Hypernetworks案例。最后应用场景推荐要考虑用户潜在需求:角色设计选LoRA(资源效率)、艺术风格用Hypernetworks(灵活叠加)、写实物体Dreambooth(细节保留)。那些开源社区的经验值如"4张图足够TextualInversion"其实比论文数据更实用。</think> 以下是Stable Diffusion中主要模型的原理对比、应用场景及使用指南,综合引用内容社区实践整理而成: --- ### **一、模型原理对比** | **模型** | **原理** | **训练参数量** | **输出大小** | |-------------------|--------------------------------------------------------------------------|--------------------|------------| | **LoRA** | 通过低秩分解矩阵微调交叉注意力层,冻结原模型权重[^1][^3] | 极小(通常3~50MB) | 2~200MB | | **Dreambooth** | 全模型微调+特定标识符绑定新概念,修改UNet文本编码器[^4] | 极大(约2~7GB) | 2~7GB | | **Hypernetworks** | 训练外部神经网络注入额外特征,动态影响SD模型输出[^1] | 中等(50~200MB) | 100~500MB | | **Textual Inversion** | 仅训练文本嵌入层(Embedding),用新关键词映射潜在特征[^1][^4] | 极小(<10KB) | 1~10KB | | **Checkpoint** | 完整模型快照(含UNet/VAE/文本编码器),非微调技术[^2] | 极大(2~7GB) | 2~7GB | > 注:Checkpoint是基础模型的保存点,其他均为在原模型上的微调方法。 --- ### **二、核心差异总结** | **维度** | LoRA | Dreambooth | Hypernetworks | Textual Inversion | |------------------|--------------------------|-------------------------|---------------------|-------------------| | **训练速度** | ⭐⭐⭐⭐⭐ (最快) [^3] | ⭐ (最慢) | ⭐⭐ | ⭐⭐⭐ | | **显存消耗** | <6GB [^3] | >16GB | 8~12GB | <4GB | | **改变风格能力** | ✅ (有限) | ✅⭐⭐⭐ (最强) [^3] | ✅⭐⭐ | ❌ (仅对象) | | **改变对象能力** | ✅⭐⭐ | ✅⭐⭐⭐⭐ | ✅⭐ | ✅⭐⭐ | | **模型兼容性** | ✅⭐ (需匹配基底模型) [^3] | ❌ (绑定特定模型) | ✅⭐⭐ | ✅⭐⭐⭐ | --- ### **三、应用场景推荐** 1. **LoRA**: - ✅ **适合**:角色设计、轻量化风格迁移、多模型组合 - ❌ **局限**:难以重构色彩体系(如将猫改为荧光色)[^3] - **教程**: ```bash # 使用Kohya_SS训练 python train_network.py --pretrained_model=model.ckpt --train_data_dir=./images ``` 2. **Dreambooth**: - ✅ **适合**:高精度物体/人脸还原、颠覆性风格创作 - ⚠️ **注意**:需32GB显存优化(使用`--gradient_checkpointing`)[^3] - **触发词**:训练时需唯一标识符如`shs_dog` 3. **Hypernetworks**: - ✅ **适合**:叠加多种画风(水墨+赛博朋克)、艺术实验 - **训练命令**: ```python # Automatic1111 WebUI python train.py --hypernetwork=my_style --data_root=./style_images ``` 4. **Textual Inversion**: - ✅ **适合**:品牌元素植入(logo)、固定构图物体 - **教程**:4-5张图训练新关键词`<my-token>` 5. **Checkpoint**: - ✅ **作用**:模型版本管理/分享(如ChilloutMix)[^2] --- ### **四、关键结论** 1. **效率优先选LoRA**:资源消耗最低,适合快速迭代[^3] 2. **质量优先选Dreambooth**:还原复杂细节能力最强[^4] 3. **轻量植入选Textual Inversion**:KB级文件实现概念绑定[^1] 4. **风格混合实验选Hypernetworks**:外部网络提供灵活调控[^1] > 最佳实践:**LoRA+Dreambooth组合**——先用Dreambooth精细训练新概念,再用LoRA扩展风格融合[^3]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值