使用XTuner进行单轮对话指令微调指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00674/article/details/148524172

使用XTuner进行单轮对话指令微调指南

xtuner A toolkit for efficiently fine-tuning LLM (InternLM, Llama, Baichuan, QWen, ChatGLM) 项目地址: https://gitcode.com/gh_mirrors/xt/xtuner

概述

XTuner是一个强大的大语言模型微调工具，支持对InternLM等模型进行高效微调。本文将详细介绍如何使用XTuner进行单轮对话指令微调(Single-turn Dialogue Instruction Fine-tuning)，帮助模型提升对特定指令的响应能力。

数据准备方案

XTuner支持三种数据来源进行微调：

HuggingFace Hub数据集：需要将原始数据映射到XTuner定义的标准格式
Alpaca格式自定义数据集：需包含instruction、input和output三列
其他格式自定义数据集：建议直接构建为XTuner标准格式，减少预处理时间

标准数据格式

XTuner定义的单轮对话标准格式如下：

[{
    "conversation":[
        {
            "system": "系统提示信息",
            "input": "用户输入",
            "output": "模型期望输出"
        }
    ]
}]

方案一：使用HuggingFace Hub数据集

步骤1：数据格式映射

以Alpaca数据集为例，原始数据包含instruction、input、output三列。我们需要编写映射函数将其转换为标准格式：

SYSTEM_ALPACA = 'Below is an instruction...'  # 系统提示

def custom_map_fn(example):
    return {
        'conversation': [{
            'system': SYSTEM_ALPACA,
            'input': f"{example['instruction']}\n{example['input']}",
            'output': example['output']
        }]
    }

步骤2：配置准备

列出可用配置：xtuner list-cfg -p internlm
导出配置文件：xtuner copy-cfg internlm_7b_qlora_alpaca_e3 .

步骤3：配置文件修改

主要修改项：

导入自定义映射函数
替换dataset_map_fn
调整数据集路径

# 修改后的配置片段
from .map_fn import custom_map_fn  # 导入自定义函数

train_dataset = dict(
    dataset=dict(type=load_dataset, path='your/data/path'),
    dataset_map_fn=custom_map_fn,  # 使用自定义映射
    ...)

步骤4：数据验证(可选)

执行命令验证数据格式是否正确：

xtuner check-custom-dataset config.py

方案二：使用Alpaca格式自定义数据集

步骤1：数据准备

确保数据包含三列：

instruction：指令描述
input：输入内容(可为空)
output：期望输出

步骤2：配置调整

导出Alpaca相关配置
修改数据路径和加载方式：

train_dataset = dict(
    dataset=dict(
        type=load_dataset, 
        path='json', 
        data_files=dict(train='your/data.json')),
    ...)

方案三：使用其他格式自定义数据集

步骤1：数据准备

直接构建为标准格式JSON文件：

[{
    "conversation": [{
        "system": "你是一个有帮助的AI助手",
        "input": "解释量子计算",
        "output": "量子计算是利用..."
    }]
}]

步骤2：配置调整

关键修改点：

设置dataset_map_fn为None
调整数据加载方式

train_dataset = dict(
    dataset_map_fn=None,  # 已为标准格式
    ...)

最佳实践建议

数据质量：确保指令-输出对质量高，覆盖目标场景
数据量：建议至少准备数千条高质量样本
多样性：覆盖不同领域和指令类型
验证：务必使用check-custom-dataset验证数据格式
增量训练：可先在小数据集上测试，再扩展

常见问题

Q：如何处理没有input的情况？ A：可以直接将instruction作为input，或在映射函数中做相应处理

Q：系统提示(system)是否必须？ A：不是必须的，但合适的系统提示能提升模型表现

Q：数据集大小对训练的影响？ A：更大的数据集通常能带来更好的效果，但需要平衡训练成本

通过本指南，您应该能够使用XTuner高效地进行单轮对话指令微调。根据实际需求选择合适的数据准备方案，并注意数据质量和格式要求，以获得最佳的微调效果。

xtuner A toolkit for efficiently fine-tuning LLM (InternLM, Llama, Baichuan, QWen, ChatGLM) 项目地址: https://gitcode.com/gh_mirrors/xt/xtuner

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考