写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!
大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。
基于PEFT的话用4090 24G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。
LoRA整个系列分为两个部分:
1、LoRA总述
2、LoRA家族演进
本篇开始介绍第一部分:LoRA总述,尽量以面经问题的形式提出并解答,下面是一个快捷目录。
一、概念
- 简单介绍一下LoRA
- LoRA的思路
- LoRA的特点
- LoRA的优点
- LoRA的缺点
二、训练理论
- LoRA权重是否可以合入原模型?
- ChatGLM-6B LoRA后的权重多大?
- LoRA微调方法为啥能加速训练?
- 如何在已有LoRA模型上继续训练?
- LoRA这种微调方法和全参数比起来有什么劣势吗?
- LORA应该作用于Transformer的哪个参数矩阵?
- LoRA 微调参数量怎么确定?
- Rank 如何选取?
- alpha参数 如何选取?
- LoRA 高效微调如何避免过拟合?
- 哪些因素会影响内存使用?
- LoRA权重是否可以合并?
- 是否可以逐层调整LoRA的最优rank?
- Lora的矩阵怎么初始化?为什么要初始化为全0?</