LLaMA Factory数据集

最新推荐文章于 2026-01-10 05:06:36 发布

原创

最新推荐文章于 2026-01-10 05:06:36 发布 · 916 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#llama #人工智能

LLaMA Factory数据集

数据集格式

{
   
   
  "数据集名称": {
   
   
    "hf_hub_url": "Hugging Face 的数据集仓库地址（若指定，则忽略 script_url 和 file_name）",
    "ms_hub_url": "ModelScope 的数据集仓库地址（若指定，则忽略 script_url 和 file_name）",
    "script_url": "包含数据加载脚本的本地文件夹名称（若指定，则忽略 file_name）",
    "file_name": "该目录下数据集文件夹或文件的名称（若上述参数未指定，则此项必需）",
    "formatting": "数据集格式（可选，默认：alpaca，可以为 alpaca 或 sharegpt）",
    "ranking": "是否为偏好数据集（可选，默认：False）",
    "subset": "数据集子集的名称（可选，默认：None）",
    "split": "所使用的数据集切分（可选，默认：train）",
    "folder": "Hugging Face 仓库的文件夹名称（可选，默认：None）",
    "num_samples": "该数据集所使用的样本数量。（可选，默认：None）",
    "columns（可选）": {
   
   
      "prompt": "数据集代表提示词的表头名称（默认：instruction）",
      "query": "数据集代表请求的表头名称（默认：input）",
      "response": "数据集代表回答的表头名称（默认：output）",
      "history": "数据集代表历史对话的表头名称（默认：None）",
      "messages": "数据集代表消息列表的表头名称（默认：conversations）",
      "system": "数据集代表系统提示的表头名称（默认：None）",
      "tools": "数据集代表工具描述的表头名称（默认：None）",
      "images": "数据集代表图像输入的表头名称（默认：None）",
      "videos": "数据集代表视频输入的表头名称（默认：None）",
      "audios": "数据集代表音频输入的表头名称（默认：None）",
      "chosen": "数据集代表更优回答的表头名称（默认：None）",
      "rejected": "数据集代表更差回答的表头名称（默认：None）",
      "kto_tag": "数据集代表 KTO 标签的表头名称（默认：None）"
    },
    "tags（可选，用于 sharegpt 格式）": {
   
   
      "role_tag": "消息中代表发送者身份的键名（默认：from）",
      "content_tag": "消息中代表文本内容的键名（默认：value）",
      "user_tag": "消息中代表用户的 role_tag（默认：human）",
      "assistant_tag": "消息中代表助手的 role_tag（默认：gpt）",
      "observation_tag": "消息中代表工具返回结果的 role_tag（默认：observation）",
      "function_tag": "消息中代表工具调用的 role_tag（默认：function_call）",

最低0.47元/天解锁文章