Textual Inversion、Hypernetwork、Dreambooth 和 LoRA 是四种不同的 Stable Diffusion 模型训练方法。它们都可以用来训练 Stable Diffusion 模型,但它们之间存在一些差异,我们可以通过下面的对比来考虑使用哪种训练方式。
如果你知道模型中已经可以产生你想要的东西,例如,某种风格,或者已经 "在里面 "的特定名人,你可以使用这个模型,但是当你发现模型里面没有你要的人或者给严重错误标识了,那你就可以收集这种人物的样本图像,创建一个 Embedding训练,并使用对应关键字标识出来。
Textual Inversion
Textual Inversion(也称为 Embedding)是一种使用文本提示来训练模型的方法。它根据模型引用给定的图像并选择最匹配的图像。你做的迭代越多越好,能够在保持图像质量的同时,快速生成大量图像。这种方法对计算资源要求较低,适用于需要快速生成大量高质量图像的场景。
特点:
- 生成的模型文件小,大约几十KB
- 通常适用于转换图像风格
- 使用时不需要加载模型,只需要在提词中embeddings中的关键tag
- 本地训练时对计算资源要求不高
- 可以通过生成的PT文件覆盖在原有基础上继续训练
- 模型关键字尽量是不常见的词语
- 推荐训练人物
训练时关键参数设定:
- learning_rate: 0.05:10, 0.02:20, 0.01:60, 0.005:200, 0.002:500, 0.001:3000, 0.0005
- number of vectors per token:按图片数量设置(图