大模型入门（四）—— 基于peft 微调 LLaMa模型

原创

已于 2024-10-07 11:04:20 修改 · 1.4k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#llama #人工智能 #学习 #语言模型 #深度学习 #自然语言处理

于 2024-09-09 13:45:47 首次发布

llama-7b模型大小大约27G，本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。
在这里插入图片描述

1、模型和数据准备

使用的大模型：https://huggingface.co/decapoda-research/llama-7b-hf，已经是float16的模型。

微调数据集：https://github.com/LC1332/Chinese-alpaca-lora/blob/main/data/trans_chinese_alpaca_data.json

微调的代码已上传到github：https://github.com/jiangxinyang227/LLM-tuning/tree/master/llama_tuning

2、微调技巧

1）lora微调。float16的模型刚刚好存放在16G的GPU上，没有太多显存用于存放梯度、优化器等参数，因此在这里使用lora微调部分参数。

2）混合精度训练，因为llama-7b有27g，想在单张V100上加载就需要转换成float16才行，而lora参数用的是float32，需要使用混合精度训练。同时混合精度训练也会有所加速。

3）梯度累积，单张gpu在存放完模型参数，lora参数、梯度、优化器等参数之后只剩下很少的显存给到输入输出等中间变量，经测试单张V100的极限大致是batch size=1，sequence length=200，只能使用梯度累积实现mini-batch训练。

4）当有多张卡时，可以使用数据并行、模型并行等方法微调，数据并行只是将模型复制到每张GPU上，因此单张GPU的batch size仍然只能是1，模型并行会将模型均分到每个GPU上，可以增大每张GPU上的batch size，在2张V100上测试了ddp（数据并行）和基于zero-3 + cpu offload（数据并行+模型并行+CPU）。

3、要注意的代码讲解

3.1 data_helper.py

data_helper.py中主要注意下tokenizer()函数，一是padding是在左边padding，和我们通常的右边padding不太一样；二是labels中的pad_id=-100，因为pytorch中label=-100时不参与loss的计算。

def tokenize(self, prompt, add_eos_token=True):
        # there's probably a way to do this with the tokenizer settings
        # but again, gotta move fast
        result = self.tokenizer(
            prompt,
            truncation=True,
            max_length=self.sequence_len,
            padding=False,
            return_tensors=None
        )
        input_ids, attention_mask, labels = [], [], []
        if (
            result["input_ids"][-1] != self.eos_token_id
            and len(result["input_ids"]) < self.sequence_len
            and add_eos_token
        ):
            result["input_ids"].append(self.eos_token_id)
            result["attention_mask"].append(1)
        
        pad_len = self.sequence_len - len(result["input_ids"])
        if pad_len <= 0:
            input_ids = result["input_ids"][:self.sequence_len]
            attention_mask = result["attention_mask"][:self.sequence_len]
            labels = input_ids.copy()
        else:
            input_ids = [self.pad_token_id] * pad_len + result["input_ids"]

最低0.47元/天解锁文章