【stable diffusion】如何训练一个非常像的真人LoRA

Stable Diffusion训练真人LoRA全流程

在本篇文章中,我们将探索如何训练一个能够将喜爱的人物置入任何场景中并实现高度一致性的LoRA模型。借助LoRA,我们能够创造出极为逼真的人物图像,就如同我为斯嘉丽训练的LoRA模型所展示的那样。

scarlett johansson

那么,让我们一起深入了解如何训练LoRA。

Kohya训练器

在多种工具中,Kohya训练器因其全面的功能——不仅限于训练LoRA,也包括DreamBooth和Text Inversion——而广受欢迎。

国内也有一些开发者制作出了一些好用的训练器,比如赛博丹炉和秋叶丹炉。它们的原理和Kohya一样,设置好参数以后,最终都会转化为脚本进行训练。所以说,掌握了Kohya训练器以后,其他的训练器也不在话下。

安装Kohya相对简单,其详细的安装指南可在项目的Github主页(github.com/bmaltais/ko…)找到。

此外,B站的知名UP主Nenly也提供了一份详细的安装攻略(gf66fxi6ji.feishu.cn/wiki/Q4EYwQ…),非常值得参考。

LoRA训练流程

训练LoRA的流程包括以下几个关键步骤:

1️⃣ 准备数据集:选取适合训练的图片。

2️⃣ 图片预处理:进行裁剪和打标,为图片添加合适的标注或提示词。

3️⃣ 设置训练参数:在Kohya训练器中进行参数设置。

4️⃣ 开启训练:通过命令行查看训练进度。

5️⃣ 测试训练结果:挑选出效果最佳的LoRA文件进行测试。

LoRA训练的底层逻辑

为了解决可能出现的疑惑,本段落将深入解释LoRA训练的底层逻辑。通过深入了解这一过程,您将能更清晰地把握如何训练出一个高质量的LoRA模型。

LoRA训练概述

LoRA模型的训练目标是生成的图片与原训练图像高度相似。这是通过在Diffusion模型上添加额外权重来实现的,这些权重被保存在一个称作LoRA文件的单独文件中。可以将LoRA文件视为Diffusion模型的一种插件,这种插件会根据训练过程不断调整权重,以达到与原始训练图相似的效果。

训练过程详解

  1. 添加初始噪声:首先,我们会给训练图像添加一些初始噪声,这一步骤是为了模拟Diffusion过程中的噪声添加和去除过程,提高模型的泛化能力。
  2. 打标与去噪:在添加噪声后,Diffusion模型将根据训练图上的标注(例如“1girl”)进行去噪处理。这解释了为何我们需要在训练前为训练图打上标签的重要性。
  3. 计算Loss值:去噪后,我们将得到一张新的图片,用于与之前添加噪声的图片进行对比,通过这一比较,计算出两张图片之间的差异性,即Loss值。这个值反映了经过初步训练后的图片与原始训练图之间的差异。根据这个Loss值,AI会调整附加在Diffusion模型上的权重,使得模型去噪后的图片与原始训练图更加接近。
  4. 迭代优化:这一过程会不断重复,通过迭代调整权重,LoRA文件的训练效果将逐步提升。这个迭代次数也就是我们在Kohya训练器里设置的最大训练步数。
  5. 重复次数和轮次:在训练过程中,每张图都会被训练多次,这一次数称为重复次数(Repeats)。所有图片经过若干重复次数的训练后,完成的总体过程称为一个轮次(Epoch),这个参数也是在Kohya训练器中进行设置的。

通过上述步骤,LoRA模型的训练涉及到精细的权重调整和优化,确保了生成图像与原始训练图之间的高度相似性。希望这一解析能帮助您更好地理解LoRA模型的训练机制。

正式开始LoRA训练:以斯嘉丽为例

在理解了LoRA训练的底层逻辑后,我们现在可以开始实际的训练过程了。本次我们将以众所周知的好莱坞明星斯嘉丽·约翰逊为例,展开训练。下面是详细的步骤和一些建议,希望能帮助你顺利完成LoRA模型的训练。

第一步:准备训练集

成功的LoRA训练起始于高质量的数据集。以下是一些建议,帮助你准备一个合格的训练集:

选择合适的图片作为训练集是至关重要的第一步。优质的数据集直接影响训练结果的质量。

第二步:图片预处理

裁剪

为了让AI更好地学习人物的脸部特征,建议以1比1的宽高比进行裁剪,主要聚焦于头部区域。稍微包含一些肩膀部分也是可以的。这样的裁剪策略有助于生成更加逼真的LoRA图像。这样可以让AI充分学习人物的脸部特征,生成的LoRA也更像。如果到时候我们训练出的LoRA生成的图片只有大头照也没关系,因为我们可以先生成其他人物的全身照,然后用LoRA生成的大头照进行换脸。 这几张斯嘉丽的图片我就是这样生成的。灵活度很高,想要什么风格就什么风格。

<think>嗯,用户询问StableDiffusion模型中Checkpoint和LoRA的具体作用和工作原理。首先,需要明确这两个概念的核心功能差异:Checkpoint作为基础模型承载着图像生成的底层能力,而LoRA则是轻量化的风格微调模块。根据引用资料[^3][^4]可知,Checkpoint文件体积庞大(2-7GB),包含完整的图像生成参数,决定着基本画风和内容类型。注意到用户可能混淆两类模型的应用层级。需要特别强调:必须先加载Checkpoint才能使用LoRA,因为LoRA本质是对基础模型的补充(引用[^1][^5])。准备用比喻说明:Checkpoint相当于绘画师的基本功和风格倾向,LoRA则是特定题材的速成技法手册。关于LoRA的工作原理,资料提到它的全称是"Low-RankAdaptation"。需要通俗解释其技术本质:传统微调需调整数百万参数,LoRA通过矩阵分解技术,仅修改关键节点权重(引用[^4][^5])。这点很重要,必须强调其"轻量化"特性——通常文件仅100-200MB,加载速度快且兼容性强。应用场景方面,资料[^3]显示Checkpoint分为写实/二次元等大类,考虑用表格对比会更清晰。而LoRA的触发方式容易被忽略(引用[^1]),必须明确告知用户:需在提示词中显式调用<lora:filename:weight>。这个实操细节用户容易出错,建议加粗显示。看到引用[^5]提到模型融合技术(SuperMerger插件),这部分属于进阶应用。考虑将使用流程分为四步说明,特别指出权重系数0.3-0.7的推荐范围——数值过高会导致图像崩坏,这是实践中的常见陷阱。后续问题设计要兼顾概念原理(如LoRA的秩分解)、软件操作(目录结构)、资源获取(CivitAI平台)。其中"模型融合与微调差异"可能最易混淆,适合作为重点问题提出。</think> 以下是Stable Diffusion中Checkpoint和LoRA模型的详细解析及使用方法: ### 一、Checkpoint(大模型) #### 1. **核心作用** - **图像生成基础**:作为SD的核心模型(.ckpt/.safetensors格式),包含完整的神经网络参数[^3][^4] - **风格控制**:决定生成图像的整体风格(如写实/二次元/2.5D),文件大小通常为2-7GB[^3] - **存储路径**:`stable-diffusion-webui/models/Stable-diffusion/`(可按风格分子目录管理)[^3] #### 2. **核心特性** | 特性 | 说明 | |---------------------|----------------------------------------------------------------------| | 格式兼容性 | .safetensors(安全轻量)或.ckpt(兼容旧版)[^3] | | 动态加载机制 | 通过WebUI左上角下拉菜单选择,可配合VAE提升画质[^3] | | 模型管理 | 使用Model Manager插件实现分类检索[^3] | #### 3. **使用场景** - 生成特定风格:如使用`ChilloutMix`生成真人照片,`Anything V5`生成动漫[^3] - 内容定制:通过训练创建专属风格(需大量数据和算力)[^4] --- ### 二、LoRA模型 #### 1. **工作原理** - **轻量适配器**:基于Low-Rank Adaptation(低秩适应)技术,仅修改关键层权重[^5] - **参数效率**:文件大小通常100-200MB,加载速度比完整Checkpoint快10倍[^1][^5] - **触发机制**:需在提示词中显式调用`<lora:filename:weight>`激活[^1] #### 2. **核心价值** ```mermaid graph LR A[LoRA优势] --> B(快速风格切换) A --> C(避免重复训练模型) A --> D(精细控制特定元素) ``` - 角色定制:如生成固定角色的多姿势图像 - 元素增强:添加特定服装/画风细节(水墨、像素风等) - 模型融合:与Checkpoint叠加实现风格混合[^5] #### 3. **使用方法** 1. **存储路径**:放入`stable-diffusion-webui/models/Lora/`[^1] 2. **调用方式**: - 提示词输入:`<lora:chinese_style_v1:0.7>`(0.7为权重系数) - 权重建议:0.3-0.7避免过拟合,超过1.0可能导致图像崩坏 3. **融合进阶**: - 使用**SuperMerger插件**合并LoRA与Checkpoint(生成.safetensors新文件)[^5] - 配合**LoRA Block Weight**微调分层权重[^5] --- ### 三、对比总结 | **特性** | Checkpoint | LoRA | |------------------|------------------------------|-------------------------------| | **文件大小** | 2-7GB | 100-200MB | | **功能定位** | 基础图像生成 | 细粒度风格/对象控制 | | **加载方式** | 主界面直接选择 | 需在提示词中显式调用 | | **训练成本** | 极高(需数万张图+多GPU) | 较低(数百张图+消费级显卡) | > **实践建议**:优先加载基础Checkpoint(如`Realistic Vision`),再用LoRA添加细节(如`<lora:detailed_eyes_v2:0.5>`提升眼部精度)[^3][^5] --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值