LLaMA-Factory 基于 LoRA 的 SFT 指令微调及相关功能梳理

最新推荐文章于 2025-04-19 16:39:53 发布

原创

最新推荐文章于 2025-04-19 16:39:53 发布 · 2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

1. 数据准备

微调数据的格式为 Alpaca 或 ShareGPT 格式，需进行以下步骤：

自定义数据集转换：

将原始数据集转换成指定格式（JSON 格式）。示例数据：

{
  "instruction": "写一个商品文案",
  "input": "类型#裤*版型#宽松",
  "output": "宽松的阔腿裤吸引了大量明星的喜爱，设计感十足。"
}

数据注册： 修改 data/dataset_info.json 文件，将数据集注册到系统中。

"adgen_local": {
  "path": "data/adgen.json",
  "columns": {"instruction": "content", "output": "summary"}
}

2. LoRA 指令微调 (SFT)

2.1 命令行启动训练

通过命令行微调模型，参数定义如下：

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
    --stage sft \
    --do_train \
    --model_name_or_path /path/to/Meta-Llama-3-8B-Instruct \
    --dataset alpaca_gpt4_zh,identity,adgen_local \
    --dataset_dir ./data \
    --template llama3 \
    --finetuning_type lora \
    -