Stable Diffusion,一款基于深度学习的图像生成模型,以其强大的图像生成能力和个性化风格迁移能力,在艺术创作领域掀起了一场革命。而LoRa技术,作为Stable
Diffusion的一项重要应用,更是让用户能够根据自己的喜好,生成专属于自己的女神形象。本文将带你深入了解Stable Diffusion -
LoRa应用的使用方法,助你轻松实现这一梦想。
这几天我看到上海有很多活动例如BW、CCG、ChinaJoy之类的
看到网上有很多人上传他们和各类漂亮coser的合照,那可真是羡慕死我了。
这个时候我收到了我妈的消息,她问我为什么我“女朋友”的照片总是只穿一件衣服,不是给了我钱让我去买衣服吗?
我这才发现因为我偷懒的缘故,AI绘图的成品大多只是更换了动作和背景,衣服却是固定的样式。再加上我怕改了权重较高的提示词会导致AI直接帮我换个“女朋友”的缘故,一直不敢做大幅度的改动。
至于我妈问我为什么女朋友的脸偶尔会有些微小的变化,我只能说是开美颜和不开美颜的区别了。
这时我意识到了关于LoRa的学习迫在眉睫,得赶紧学会这个东西好给我“女朋友多换几件衣服”,当然我的初衷还是为了学会好分享给在座的各位。
**所以废话少说,**让我们开始今天的学习吧!
LoRa是什么
这个模型看过我前面笔记的同学们肯定不陌生,无论是在提示词、模型标题还是抄作业的时候都会看到这个词。
在AI绘画爆火期间,无论是精美的二次元插画还是堪比真人的虚拟博主,甚至是那些让老色批都直呼awsome的赛博coser。
虽然这个模型的下载只需要区区几百MB
但是当真正使用模型的时候就会遇到一些问题,在哪里找Lora、尖括号和数字是什么意思、调用Lora的扩展插件要怎么使用等。
当然这些问题都会在这篇笔记中得到解答,如果准备好遇见专属于自己的那个“他/她”,那么就接着往下看吧。
LoRa全称Low-Rank Adaptation Model,翻译过来就是低秩适应。
LoRa最早是由微软团队提出且应用在早期的大语言模型例如GTP2、GTP3中。而第一位将LoRa引入扩散模型并辅助图像产出的人叫做Cloneofismo
在这个大神之前的SD绘图方法只能通过Dreambooth进行绘画,也就是之前提到过的Checkpoint。
Dearmbooth是一种“个性化”文本到图像扩散模型的新方法,可以根据用户的需求将扩散模型“特殊化”。给定一个主题的几张图像作为输入,然后微调一个预训练的文本到图像模型里,这样AI就学会了将唯一标识符(某些词语)与特定的主题绑在一起。
如果对大模型的产出不满意就只能重新迭代、微调,在之前也提到过大模型的对设备要求高、消耗的算力大、速度慢。
于是这位大神在微软团队的论文启发下提出了一种“微调”扩散模型的方式,也就是现如今的Lora,Lora的诞生降低了模型训练的门槛并且拓宽了产出模型的适用范围。
训练大模型最低的要求是拥有12G以上的内存,这意味着显卡至少是N卡的4070起步。但是训练Lora模型只需要8G甚至更低一下也可以,这意味着我奶奶家电脑用来炒股的1070都可以用来训练。
并且大模型CheckPoint都是1个G起步的存储空间占用,而Lora模型则大多都是在200MB以下,这样无论是在网上下载还是上传都是要快得多。
由于训练门槛的降低,现在的模型论坛和网站上有着各种各样百花齐放的创作者自己训练的lora模型。
这些Lora模型下载下来之后格式基本上都是**.ckpt或者 safetensor**
虽然说Lora的出现带来了变革,但是Lora并不是来取代Checkpoint的,相反是来加入与Checkpoint一起使用从而实现特定方面的微调。
三种调用LoRa的方式
第一种调用方式:在提示词里输入
在下载了L