大模型微调---Prefix-Tuning微调实战

韭菜盖饭

已于 2024-12-21 16:04:20 修改

阅读量1.1k

点赞数 31

分类专栏：大模型文章标签：人工智能深度学习大模型大模型微调

于 2024-12-19 11:16:57 首次发布

本文链接：https://blog.youkuaiyun.com/niulinbiao/article/details/144580121

版权

一、前言

Prefix-Tuning 的核心思想是在每一层 Transformer 的自注意力机制中引入一组可训练的前缀向量，这些前缀向量作为额外的键和值，影响注意力的分布，从而引导模型适应特定任务。
在这里插入图片描述
前缀向量不是基于特定词汇的嵌入，而是由独立的可训练参数构成。

前缀长度（L）：指前缀中向量的数量。前缀长度通常远小于输入序列的实际长度。
前缀维度（d）：每个前缀向量的维度，通常与模型的隐藏层维度一致。

作用：前缀向量能够调节注意力分布，影响模型对输入的理解和生成，进而适应特定任务。

前缀向量在 Transformer 中的集成方式：
前缀向量通常注入到每一层的自注意力子层的键（Key）和值（Value）部分。
在这里插入图片描述
更加详细的Prefix-Tuning原理可以参考以下文章：
Prefix-Tuning原理

二、Prefix-tuning实战

预训练模型与分词模型——Qwen/Qwen2.5-0.5B-Instruct
数据集——lyuricky/alpaca_data_zh_51k

2.1、下载模型到本地

# 下载数据集
dataset_file = load_dataset("lyuricky/alpaca_data_zh_51k", split="train", cache_dir="./data/alpaca_data")
ds = load_dataset("./data/alpaca_data", split="train")

# 下载分词模型
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-0.5B-Instruct")
# Save the tokenizer to a local directory
tokenizer.save_pretrained("./local_tokenizer_model")

#下载与训练模型
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path="Qwen/Qwen2.5-0.5B-Instruct",  # 下载模型的路径
    torch_dtype="auto",
    low_cpu_mem_usage=True,
    cache_dir="./local_model_cache"  # 指定本地缓存目录
)

2.2、加载模型与数据集

#加载分词模型
tokenizer_model = AutoTokenizer.from_pretrained("../local_tokenizer_model")

# 加载数据集
ds = load_dataset("../data/alpaca_data", split="train[:10%]")

# 记载模型
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path="../local_llm_model/models--Qwen--Qwen2.5-0.5B-Instruct/snapshots/7ae557604adf67be50417f59c2c2f167def9a775",
    torch_dtype="auto",
    device_map="cuda:0")

2.3、处理数据

"""
并将其转换成适合用于模型训练的输入格式。具体来说，
它将原始的输入数据（如用户指令、用户输入、助手输出等）转换为模型所需的格式，
包括 input_ids、attention_mask 和 labels。
"""
def process_func(example, tokenizer=tokenizer_model):
    MAX_LENGTH = 256
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer("\n".join