【Stable Diffusion】SD安装、常用模型(checkpoint、embedding、LORA)、提示词具、常用插件

Stable Diffusion,一款强大的AI模型,让我们能够创造出惊人的艺术作品。本文将为您介绍如何安装StableDiffusion以及深入使用的学习教程

在这里插入图片描述

1. 安装Stable Diffusion

(主义需要的小伙伴可以文末自行扫描获取)

StableDiffusion的安装可能是第一步,但它绝对是重要的一步。以下是一些安装方式:**AutoDL:**AutoD镜像版本,现在维护到V16。镜像地址:AUTOMATIC1111/stablediffusionwebui/tzwm_sd_webui_A1111。webui 1.6.0 整合版,支持 SDXL,一键启动,带视频教程。预置ControlNet v1.1.410 所有模型含 IP-Adapter、汉化、tagger等常用插件、模型路径优化。有问题可以在微信交流讨论群咨询。

● 秋叶整合包:**可在B站搜索,Stable Diffusion,第一个就是秋叶大佬。Stable
Diffusion整合包有适合不同环境的版本。Stable Diffusion整合包v4.4发布

● 星空大佬:**AI绘画整合包(新增 Controlnet1.1和SadTalker)

● kaggle:**Kaggle上也可以找到稳定的版本。stable-diffusion-webui-kaggle、zh-stable-
diffusion-webui-kaggle

● 腾讯云:**腾讯云也提供了低成本的Stable Diffusion部署方式。

2. 模型Checkpoint
Checkpoint文件对于训练模型的作者和使用者都至关重要。它们包含了模型参数和优化器状态等信息,是训练过程中的状态快照。对于使用者而言,可以将

Checkpoint 文件理解为一种风格滤镜,例如肖像、漫画、水墨、写实风等。通过选择对应的 Checkpoint 文件,您可以将 Stable
Diffusion 模型生成的结果转换为您所选择的特定风格。

下载Checkpoint文件时,请查看相关的模型说明,作者通常提供了文件和使用说明,以帮助您更好地使用和理解文件。

在这里插入图片描述

Checkpoint按画风可以分为三类:

在这里插入图片描述

官方发布的Stable
Diffusion1.4/1.5/2.0/2.1等模型效果都比较一般,现在大家用的比较多的,都是私炉模型。目前主流的模型下载网站有:Hugging
Face、Civitai(需要有魔法) 、libilibi等。

3. VAE(变分自解码器)

VAE负责将加噪后的潜空间数据转为正常图像,可以简单理解为模型的调色滤镜,主要影响画面的色彩质感。目前大多数新模型在文件中已经融合了VAE,还有一些作者会在model
介绍中推荐合适的VAE。

VAE文件后缀一般是.pt,或者是.safetensor,存放路径是将VAE文件也放在models/Stable-
diffusion文件夹下,然后将文件名改成和模型名一致,再在后缀.pt前添加.vae字段,这样就可以在加载模型时选择自动加载VAE了。

在这里插入图片描述

4. Embeddings

Embeddings技术可以将输入数据转化为向量表示,以便模型更好地进行处理和生。Embeddings可以用于控制人物特征、动作和风格。与其他模型(如LORA)相比,Embeddings的大小较小,更加方便存储和使用。它通常用于生成特定的样本,而不需要手动输入大量描述词汇。下面是一些常用的Embeddings:

● 特定人物形象:例如Corneo’s D.va,这些Embeddings用于控制特定角色的特征。

● 风格Embeddings:用于控制生成图片的风格。

● 画风Embeddings:用于赋予生成图片不同的画风。

● 概念(Concept)Embeddings:用于实现不同概念或主题的图片生成。

● 服饰Embeddings:用于控制角色的服装。
在这里插入图片描述

在C站或者liblibai网站上,常用的负面embeddings:

badhandv4、EasyNegativeV2(针对二次元模型训练的,解决肢体混乱、颜色混杂、灰度异常等等一系列负面问题,触发词easynegative)、Deep
Negative
V1.x(针对真人模型训练的。解决包括错误的人体解剖结构、令人反感的配色方案、颠倒的空间结构等等问题。触发词NG_DeepNegative_V1_75T。)

在这里插入图片描述

5. LORA(Local Operation Repeatedly Applied)

LORA是一种重要的技术,用于改善整体的画风,使生成的图片更具特定特征。LORA模型可以被用来实现以下几种效果:

在这里插入图片描述

● 人物角色LORA:用于控制特定人物的外貌和特征。

● 画风LORA:改变生成图片的整体画风。

● 概念(Concept)LORA:用于实现特定概念或主题的图片生成。

● 服饰LORA:用于控制角色的服装。

在这里插入图片描述

在这里插入图片描述

新手必备的lora:

Detail Tweaker LoRA (细节调整LoRA)、leosam’s filmgirl 胶片风 lora、Adjuster 衣物增/减
LoRA、Polaroid LoRA(拍立得LORA)、娜乌斯嘉角色lora、墨幽角色LoRa、国风未来lora、汉服宋服lora、小李国风系列。

需要注意的是,在LORA作者的信息总,会介绍 LORA 模型对应的底模和触发、权重,需要注意查看。

加载LORA扩展模型方法:

SD1.5版本:我们点击文生图下面红色小按钮,就可以显示扩展模型选项。

SD1.6版本如下图:点击窗口中的lora,TAB页切换。
在这里插入图片描述

点击lora图片上的图标,可在弹出窗口页面维护触发词和权重,下次使用时可自动带出。

在这里插入图片描述

在设置——扩展模型中,可以设置一些细节。比如设置模型展示方式是卡牌还是缩略图,卡牌宽高尺寸、LORA模型加载权重等等。

在这里插入图片描述

LORA使用介绍:

使用真实系大模型+角色LORA,就可以得到一个真人coser形象。结合controlnet还可以设计角色的姿势及构图,定制自己的作品。

在这里插入图片描述

idillustration互联网插画风模型
在这里插入图片描述

真实室内模型_realistic interior design v1

在这里插入图片描述

永一丨凤冠霞帔

在这里插入图片描述

当想强化作品中某种方面的特质时,可以叠加使用多个lora,例如使用人物+服装+风格lora来生成图片。具体使用时,你可以通过控制不同lora的权重,使得作品更像某一种lora。

6. Hypernetwork

Hypernetwork与LORA类似,但通常用于改善整体的画风,而不是改变画风。Hypernetwork的效果更细腻,可以处理不同画风之间的微小差异。这对于创造特定的画面风格非常有用。

在这里插入图片描述

7. 插件安装

为了更好地使用Stable
Diffusion,您可以安装一些插件,例如图库浏览器、提示词补全、提示词反推、局部细节重绘等。这些插件可以提供更多的功能和便捷性。

1. 安装方法:网址安装

打开可安装选框,点击load form就可以看到所有可安装的插件。在搜素框搜索到要安装的插件,点击右侧install就可以自动安装了。

在这里插入图片描述

2. 安装方法:可下载-加载可安****装应用

在这里插入图片描述

3. 安装方法:下载安装

前两种方式在网络不好时可能会安装错误,更彻底的方式是直接下载插件安装包进行安装。比如将下载好的压缩包解压后放到extensions文件夹下。https://github.com/Physton/sd-
webui-prompt-all-in-one.git

安装完后点击重启webui进行刷新,插件安装正确就会出现在已安装列表中。

在这里插入图片描述

在这里插入图片描述

如果某个插件不能用了,点击右侧的检查更新按钮,一般更新到最新版本就可以解决了。如果某个插件还是有问题,可以点击前面的复选框暂时取消使用。

在这里插入图片描述

也可以在启动器中的模型管理–扩展栏目进行更新,卸载。

在这里插入图片描述

介绍几款常用插件:

中文语言包:搜索zh(取消勾选本地化/Localization的筛选)

图库浏览器:搜索image browser

提示词补全: 搜索tag complete,中文词库见网盘

提示词反推:搜索tagger

Ultimate Upscale脚本:SD upscale升级版,用于图片放大。 搜索ultimate upscale

Local Latent Couple:局部细节重绘,搜索llul

Cutoff:精准控色,防止串色,搜索cut off

prompt-all-in-one:prompt综合插件,《提示词补全插件》

8.提示词工具:

魔咒百科词典、NovelAi魔导书、AI提示词加速器、AI tag生成工具、NovelAI tag生成器 V2.1、:可以简单生成提示词:

在这里插入图片描述

提示词参考网站:Civitai(魔法)
、libilibi、炼丹阁、DesAi、openart(偏欧美)、arthub(偏亚洲)这几个网站都有很多优秀的图片可以参考。

在这里插入图片描述

但由于AIGC刚刚爆火,网上相关内容的文章博客五花八门、良莠不齐。要么杂乱、零散、碎片化,看着看着就衔接不上了,要么内容质量太浅,学不到干货。

这里分享给大家一份Adobe大神整理的《AIGC全家桶学习笔记》,相信大家会对AIGC有着更深入、更系统的理解。

有需要的朋友,可以长按下方二维码,免费领取!

AIGC所有方向的学习路线思维导图

这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。如果下面这个学习路线能帮助大家将AI利用到自身工作上去,那么我的使命也就完成了:
在这里插入图片描述

AIGC工具库

AIGC工具库是一个利用人工智能技术来生成应用程序的代码和内容的工具集合,通过使用AIGC工具库,能更加快速,准确的辅助我们学习AIGC
在这里插入图片描述

有需要的朋友,可以点击下方卡片免费领取!

精品AIGC学习书籍手册

书籍阅读永不过时,阅读AIGC经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验,结合自身案例融会贯通。

在这里插入图片描述

AI绘画视频合集

我们在学习的时候,往往书籍源码难以理解,阅读困难,这时候视频教程教程是就很适合了,生动形象加上案例实战,科学有趣才能更方便的学习下去。

在这里插入图片描述

有需要的朋友,可以长按下方二维码,免费领取!

<think>嗯,用户这次的问题非常体且有深度,ta显然是想系统掌握StableDiffusion各类微调模型的技术本质。从引用[1][3]的对比需求,到引用[4]的技术原理描述,用户应该是个技术实践者,可能正在犹豫该选择哪种方案来训练自己的模型。用户上次提问时我已经整理了对比表格,但这次更聚焦原理和教程。需要特别注意:1)Checkpoint本质不是微调模型而是完整模型快照,这点在引用[2]明确提到;2)TextualInversion的"关键词替代"特性在引用[4]的植入技术描述里很关键。技术原理部分要突出互补性:Dreambooth是暴力全参调整但资源消耗大;LoRA用低秩分解实现轻量化;Hypernetworks通过外部网络扩展模型;TextualInversion则完全不动模型只改embedding。这点在引用[3]的论坛讨论中有佐证。教程设计必须包含核心痛点解决方案:比如Dreambooth的OOM问题对应16GB显存配置,LoRA模型兼容性要强调基模型匹配(引用[3]末尾特别提到这点)。用户可能实际在本地跑过训练,才会关注32张显卡的Hypernetworks案例。最后应用场景推荐要考虑用户潜在需求:角色设计选LoRA(资源效率)、艺术风格用Hypernetworks(灵活叠加)、写实物体Dreambooth(细节保留)。那些开源社区的经验值如"4张图足够TextualInversion"其实比论文数据更实用。</think> 以下是Stable Diffusion中主要模型的原理对比、应用场景及使用指南,综合引用内容和社区实践整理而成: --- ### **一、模型原理对比** | **模型** | **原理** | **训练参数量** | **输出大小** | |-------------------|--------------------------------------------------------------------------|--------------------|------------| | **LoRA** | 通过低秩分解矩阵微调交叉注意力层,冻结原模型权重[^1][^3] | 极小(通常3~50MB) | 2~200MB | | **Dreambooth** | 全模型微调+特定标识符绑定新概念,修改UNet和文本编码器[^4] | 极大(约2~7GB) | 2~7GB | | **Hypernetworks** | 训练外部神经网络注入额外特征,动态影响SD模型输出[^1] | 中等(50~200MB) | 100~500MB | | **Textual Inversion** | 仅训练文本嵌入层(Embedding),用新关键词映射潜在特征[^1][^4] | 极小(<10KB) | 1~10KB | | **Checkpoint** | 完整模型快照(含UNet/VAE/文本编码器),非微调技术[^2] | 极大(2~7GB) | 2~7GB | > 注:Checkpoint是基础模型的保存点,其他均为在原模型上的微调方法。 --- ### **二、核心差异总结** | **维度** | LoRA | Dreambooth | Hypernetworks | Textual Inversion | |------------------|--------------------------|-------------------------|---------------------|-------------------| | **训练速度** | ⭐⭐⭐⭐⭐ (最快) [^3] | ⭐ (最慢) | ⭐⭐ | ⭐⭐⭐ | | **显存消耗** | <6GB [^3] | >16GB | 8~12GB | <4GB | | **改变风格能力** | ✅ (有限) | ✅⭐⭐⭐ (最强) [^3] | ✅⭐⭐ | ❌ (仅对象) | | **改变对象能力** | ✅⭐⭐ | ✅⭐⭐⭐⭐ | ✅⭐ | ✅⭐⭐ | | **模型兼容性** | ✅⭐ (需匹配基底模型) [^3] | ❌ (绑定特定模型) | ✅⭐⭐ | ✅⭐⭐⭐ | --- ### **三、应用场景推荐** 1. **LoRA**: - ✅ **适合**:角色设计、轻量化风格迁移、多模型组合 - ❌ **局限**:难以重构色彩体系(如将猫改为荧光色)[^3] - **教程**: ```bash # 使用Kohya_SS训练 python train_network.py --pretrained_model=model.ckpt --train_data_dir=./images ``` 2. **Dreambooth**: - ✅ **适合**:高精度物体/人脸还原、颠覆性风格创作 - ⚠️ **注意**:需32GB显存优化(使用`--gradient_checkpointing`)[^3] - **触发词**:训练时需唯一标识符如`shs_dog` 3. **Hypernetworks**: - ✅ **适合**:叠加多种画风(水墨+赛博朋克)、艺术实验 - **训练命令**: ```python # Automatic1111 WebUI python train.py --hypernetwork=my_style --data_root=./style_images ``` 4. **Textual Inversion**: - ✅ **适合**:品牌元素植入(logo)、固定构图物体 - **教程**:4-5张图训练新关键词`<my-token>` 5. **Checkpoint**: - ✅ **作用**:模型版本管理/分享(如ChilloutMix)[^2] --- ### **四、关键结论** 1. **效率优先选LoRA**:资源消耗最低,适合快速迭代[^3] 2. **质量优先选Dreambooth**:还原复杂细节能力最强[^4] 3. **轻量植入选Textual Inversion**:KB级文件实现概念绑定[^1] 4. **风格混合实验选Hypernetworks**:外部网络提供灵活调控[^1] > 最佳实践:**LoRA+Dreambooth组合**——先用Dreambooth精细训练新概念,再用LoRA扩展风格融合[^3]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值