Finetune简介
微调模式:增量预训练、指令跟随
增量预训练
基座模型学习到新知识,如某个垂类领域的常识

指令跟随
让模型学会对话模板,根据人类指令进行对话


LoRA&QLoRA
LLM的参数量主要集中在模型中的Linear,训练这些参数会耗费大量的显存
LoRA通过在原本的Linear旁,新增一个支路,包含两个连续的小 Linear,新增的这个支路通常叫做Adapter
Adapter参数量远小于原本的Linear,能大幅降低训练的显存消耗


XTuner介绍

加速方式:flash attention
本文介绍了Finetune技术的两个关键部分:增量预训练,使模型吸收特定领域知识;指令跟随,提升模型的对话能力。同时,针对LLM中参数量大、显存消耗高的问题,文章讨论了LoRA和QLoRA的适应器方法,以及XTuner中使用的FlashAttention加速技术。
688

被折叠的 条评论
为什么被折叠?



