
LoRA(低秩自适应)是一种针对大型预训练模型的参数高效微调技术。与需要更新全部模型参数的标准全参数微调不同,LoRA 会冻结整个模型,仅引入少量可训练参数。这些参数被添加到模型的特定层或模块中,从而以最小的内存开销实现高效适配。
由于 LoRA 仅需存储可训练参数的优化器状态和梯度,其内存消耗远低于全参数微调。但由于其他模型参数保持冻结状态,该方法无法适配新词元——任何新增词元都将对应未经训练的嵌入向量。
在先前文章中,我们探讨过如何在完全重训词元嵌入层和语言建模头的情况下使用 LoRA 微调。
这种方法使模型能有效处理特殊词元(例如聊天模板和特定领域中的专用词元)。虽然该方案效果显著,但由于需要将嵌入层和语言建模头参数设为可训练状态,会显著增加内存消耗。
本文将探讨 Hugging Face PEFT(参数高效微调)库提供的一种全新替代方案。与传统方法需要重新训练完整嵌入层和语言建模头部不同,该技术仅专注于更新模型需要学习的特殊标记对应的嵌入向量。我们将首先解析该技术的工作原理、局限性及其内存效率优势,最后与完整重训练方法进行性能对比。
订阅专栏 解锁全文
7750

被折叠的 条评论
为什么被折叠?



