手把手教你训练LoRA：LoRA训练入门指南

最新推荐文章于 2025-06-23 14:05:16 发布

AI大模型YY

最新推荐文章于 2025-06-23 14:05:16 发布

阅读量1.5k

点赞数 15

CC 4.0 BY-SA版权

分类专栏： SD教程 Stable Diffusion AIGC 文章标签： stable diffusion 人工智能 AI作画 AI绘画模型 lora AI教程

本文链接：https://blog.youkuaiyun.com/m0_71746299/article/details/145872289

AIGC 同时被 3 个专栏收录

349 篇文章

订阅专栏

Stable Diffusion

281 篇文章

订阅专栏

SD教程

209 篇文章

订阅专栏

一、什么是LoRA？给小白的极简科普

如果把AI大模型比作一位全能学霸，LoRA就是让学霸快速掌握新技能的"记忆贴纸"。举个生活中的例子：当你想让ChatGPT学会写文言文，传统方法是让它重学所有知识（相当于重新训练整个模型），耗时又烧钱。而LoRA只需要给它贴一张"古风语法小抄"（低秩矩阵），就能实现相同效果。

这种技术全称Low-Rank Adaptation of Large Language Models（大模型低秩自适应），核心原理是通过低维度的参数矩阵调整模型行为。好比在原有神经网络上叠加一层轻量"补丁"，只需训练原模型0.1%-1%的参数量，就能实现90%以上的微调效果。目前广泛应用于Stable Diffusion图像生成、ChatGPT领域适配等场景。

二、训练集准备：多样化与质量的平衡

训练集是 LoRA 模型的基石，高质量的训练集能够显著提升模型的表现。

多样化样本：
- 收集尽可能多角度、不同姿势、不同表情的训练对象图片。
- 如果训练对象有多种服装或造型，也应尽量包含在训练集中。
保证质量：
- 确保图片清晰，避免模糊、低分辨率或过度压缩的图片。
- 图片背景尽量简洁，突出训练对象主体。
多角度：
- 保证训练图片包含训练对象不同角度的图片，例如正面，侧面，背面
- 收集10-30张目标主体（如人物/服饰/画风）的图片
- 包含不同角度（正/侧/仰视）、表情、动作和背景组合
- 建议使用COS图/插画/3D模型截图混合搭配

三、数据预处理全流程

图片预处理：
- 使用图片处理软件（如 Photoshop、GIMP）或脚本将所有训练图片裁剪或缩放到 512x512 像素（可以用AI写批量处理脚本）。
- 使用 WD 1.4 Tagger（https://github.com/toriato/stable-diffusion-webui-wd14-tagger）为图片自动生成标签。这个工具可以安装在stable diffusion webui 中，也可以单独安装。
标注清洗：
- 安装 Dataset Tag Editor 的 web UI 插件（https://github.com/toshiaki1729/stable-diffusion-webui-dataset-tag-editor），这个工具可以安装在stable diffusion webui 中，方便对标签进行批量和单个图片的更改。
- 审核思路：
- - 整体审核：浏览所有图片的标签，了解整体的标注质量。
  - 批量调整：使用批量编辑功能，统一修改或删除某些标签。
  - 单张修改：针对个别图片，手动调整标签，确保准确性。
- 明确不符合角色特质的错词：删除或者修改与训练对象不相关的标签。
- 与训练对象本体识别特征密切相关的词：确保与训练对象相关的标签都准确无误。

四、Kohya GUI训练参数详解

项目地址：https://github.com/bmaltais/kohya_ss

需提前安装Python3.10.11、CUDA 11.8 toolkit、Git和Visual Studio 组件

具体参考项目README

安装（Windows）

git clone https://github.com/bmaltais/kohya_sscd kohya_ss#设置环境和安装依赖.\setup.bat#运行.\gui.bat

Windows下推荐安装CUDNN，加快训练速度。我是在macOS上跑的训练，费了老大劲才配置好。

新手推荐参数

参数项	推荐值	作用说明
Optimizer	Lion	比AdamW收敛更快
Network Rank	32	模型复杂度
Network Alpha	16	防止过拟合
Batch Size	2	显存<8G时设为1
Max Steps	1200	配合学习率调整
Shuffle Caption	✔️	增强泛化能力
Keep Tokens	1	固定触发词位置