大模型微调

向云端UP

已于 2024-11-17 18:02:54 修改

阅读量1.3k

点赞数 36

分类专栏：人工智能文章标签： python 人工智能神经网络深度学习 chatgpt

于 2024-11-17 17:57:41 首次发布

本文链接：https://blog.youkuaiyun.com/u012121721/article/details/143817904

版权

大语言模型（LLM）因其在自然语言处理任务中的卓越表现，成为了当前研究的热点。然而，这些模型通常规模庞大，参数数量多，微调时需要大量的计算资源。为了解决这一问题，本文提出了使用 LoRA（Low-Rank Adaptation）和 QLoRA（Quantized Low-Rank Adaptation）进行轻量化微调的方法。

一、大模型什么时候需要微调（Fine-Tuning）

有私有部署的需求
开源模型原生的能力不满足业务需求

大模型的通用性大大降低了微调的成本。如果通过三方 api 调用 prompt 能解决问题，不要进行微调（当参数足够大时如chatgpt-4o，不需要进行微调，通过prompt基本能解决问题），需要微调基本就是模型参数不够大，能力有限。
重点：微调的前提条件对数据是有要求，且模型微调完后不是通用模型，如果需要针对某个任务微调，只擅长做这个任务（只有在给定训练过的任务上能力是有保障的），原本的基本能力（如写摘要等）是会有损失的，甚至消失，损失多少消失多少不可控。
注：针对某个任务做微调，为任务提供的数据，就要足够覆盖任务各种各样的场景，这样微调后的模型就比较可靠；如果数据稀疏，没有涉及到的场景能力将无法保障。要求数据覆盖足够广的条件下微调才有效，因此，训练微调代价较高。

二、模型训练利器Hugging Face

hugging face官网
相当于面向 NLP 模型的 Github
尤其基于 transformer 的开源模型非常全
封装了模型、数据集、训练器等，使模型的下载、使用、训练都非常方便
情感分析案例：
输入：电影评论
输出：标签 [‘neg’,‘pos’]
数据源

2.1、操作流程

在这里插入图片描述

2.1.1、导入相关库

#!pip install transformers
#!pip install datasets
import datasets
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModel
from transformers import AutoModelForCausalLM
from transformers import TrainingArguments, Seq2SeqTrainingArguments
from transformers import Trainer, Seq2SeqTrainer
import transformers
from transformers import DataCollatorWithPadding
from transformers import TextGenerationPipeline
import torch
import numpy as np
import os, re
from tqdm import tqdm
import torch.nn as nn

2.1.2、加载数据集

通过 HuggingFace，可以指定数据集名称，运行时自动下载

DATASET_NAME = "rotten_tomatoes" # 数据集名称
raw_datasets = load_dataset(DATASET_NAME) # 加载数据集
raw_train_dataset = raw_datasets["train"] # 训练集
raw_valid_dataset = raw_datasets["validation"]# 验证集

2.1.3、加载模型

通过 HuggingFace，可以指定模型名称，运行时自动下载

MODEL_NAME = "gpt2" # 模型名称
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME,trust_remote_code=True) # 加载模型

2.1.4、加载 Tokenizer

通过 HuggingFace，可以指定模型名称，运行时自动下载对应 Tokenizer

# 加载tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME,trust_remote_code=True)
tokenizer.add_special_tokens({
   'pad_token': '[PAD]'})
tokenizer.pad_token_id = 0

# 其它相关公共变量赋值
transformers.set_seed(42) # 设置随机种子：同个种子的随机序列可复现
named_labels = ['neg','pos'] # 标签集
# 标签转 token_id
label_ids = [
    tokenizer(named_labels[i],add_special_tokens=False)["input_ids"][0]
    for i in range(len(named_labels))
]

2.1.5、处理数据集：转成模型接受的输入格式（需要手动操作）

拼接输入输出
PAD 成相等长度
标识出不参与 Attention 计算的 Tokens（Attention Mask）
标识出参与 Loss 计算的 Tokens (只有输出 Token 参与 Loss 计算)
在这里插入图片描述

MAX_LEN=32   #最大序列长度（输入+输出）
DATA_BODY_KEY = "text" # 数据集中的输入字段名
DATA_LABEL_KEY = "label" #数据集中输出字段名

# 定义数据处理函数，把原始数据转成input_ids, attention_mask, labels
def process_fn(examples):
    model_inputs = {
   
            "input_ids": [],
            "attention_mask": [],
            "labels": [],
        }
    for i in range(len(examples[DATA_BODY_KEY])):
        # 自定义 Prompt 格式
        prompt = f"{
     examples[DATA_BODY_KEY][i]} Sentiment: "
        inputs = tokenizer(prompt, add_special_tokens=False)
        label = label_ids[examples[DATA_LABEL_KEY][i]]
        input_ids = inputs["input_ids"] + [tokenizer.eos_token_id, label]

        raw_len = len(input_ids)

        if raw_len >= MAX_LEN:
            input_ids = input_ids[-MAX_LEN:]
            attention_mask = [1] * MAX_LEN
            labels = [-100]*(MAX_LEN - 1) + [label]
        else:
            input_ids = input_ids + [tokenizer.pad_token_id] * (MAX_LEN - raw_len)
            attention_mask = [1] * raw_len + [0] * (MAX_LEN - raw_len)
            labels = [-100]*(raw_len-1) + [label] + [-100] * (MAX_LEN - raw_len)
        model_inputs["input_ids"].append(input_ids)
        model_inputs["attention_mask"].append(attention_mask)
        model_inputs["labels"].append(labels)
    return model_inputs
    
# 处理训练数据集
tokenized_train_dataset = raw_train_dataset.map(
    process_fn,
    batched=True,
    remove_columns=raw_train_dataset.columns,
    desc="Running tokenizer on train dataset",
)
# 处理验证数据集
tokenized_valid_dataset = raw_valid_dataset.map(
    process_fn,
    batched=True,
    remove_columns=raw_valid_dataset.columns,
    desc="Running tokenizer on validation dataset",
)

2.1.6、定义数据规整器：训练时自动将数据拆分成 Batch

# 定义数据校准器（自动生成batch）
collater = DataCollatorWithPadding(
    tokenizer=tokenizer, return_tensors="pt",
)

2.1.7、定义训练超参：比如学习率

LR=2e-5         # 学习率
BATCH_SIZE=8    # Batch大小
INTERVAL=100    # 每多少步打一次 log / 做一次 eval

# 定义训练参数
training_args = TrainingArguments(
    output_dir="./output",              # checkpoint保存路径
    evaluation_strategy="steps",        # 按步数计算eval频率
    overwrite_output_dir

最低0.47元/天解锁文章