LLaMA Factory数据集

LLaMA Factory数据集

数据集格式

{
   
   
  "数据集名称": {
   
   
    "hf_hub_url": "Hugging Face 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
    "ms_hub_url": "ModelScope 的数据集仓库地址(若指定,则忽略 script_url 和 file_name)",
    "script_url": "包含数据加载脚本的本地文件夹名称(若指定,则忽略 file_name)",
    "file_name": "该目录下数据集文件夹或文件的名称(若上述参数未指定,则此项必需)",
    "formatting": "数据集格式(可选,默认:alpaca,可以为 alpaca 或 sharegpt)",
    "ranking": "是否为偏好数据集(可选,默认:False)",
    "subset": "数据集子集的名称(可选,默认:None)",
    "split": "所使用的数据集切分(可选,默认:train)",
    "folder": "Hugging Face 仓库的文件夹名称(可选,默认:None)",
    "num_samples": "该数据集所使用的样本数量。(可选,默认:None)",
    "columns(可选)": {
   
   
      "prompt": "数据集代表提示词的表头名称(默认:instruction)",
      "query": "数据集代表请求的表头名称(默认:input)",
      "response": "数据集代表回答的表头名称(默认:output)",
      "history": "数据集代表历史对话的表头名称(默认:None)",
      "messages": "数据集代表消息列表的表头名称(默认:conversations)",
      "system": "数据集代表系统提示的表头名称(默认:None)",
      "tools": "数据集代表工具描述的表头名称(默认:None)",
      "images": "数据集代表图像输入的表头名称(默认:None)",
      "videos": "数据集代表视频输入的表头名称(默认:None)",
      "audios": "数据集代表音频输入的表头名称(默认:None)",
      "chosen": "数据集代表更优回答的表头名称(默认:None)",
      "rejected": "数据集代表更差回答的表头名称(默认:None)",
      "kto_tag": "数据集代表 KTO 标签的表头名称(默认:None)"
    },
    "tags(可选,用于 sharegpt 格式)": {
   
   
      "role_tag": "消息中代表发送者身份的键名(默认:from)",
      "content_tag": "消息中代表文本内容的键名(默认:value)",
      "user_tag": "消息中代表用户的 role_tag(默认:human)",
      "assistant_tag": "消息中代表助手的 role_tag(默认:gpt)",
      "observation_tag": "消息中代表工具返回结果的 role_tag(默认:observation)",
      "function_tag": "消息中代表工具调用的 role_tag(默认:function_call)",
      
### 上传 LLAMA FACTORY 数据集至指定平台或环境的详细说明 为了将 LLAMA FACTORY 数据集成功上传至指定平台或环境,以下是详细的步骤和注意事项: #### 1. 数据集准备 在开始上传之前,确保数据集已经正确生成并存储在项目目录中。根据已有信息[^4],可以通过修改 `identity.json` 文件来创建自定义数据集。具体操作如下: ```python import json # 定义模型名称 MODEL_NAME = "Llama-3" # 加载原始数据集 with open("/notebooks/LLaMA-Factory/data/identity.json", "r", encoding="utf-8") as f: dataset = json.load(f) # 替换数据集中特定字段 for sample in dataset: sample["output"] = sample["output"].replace("MODEL_NAME", MODEL_NAME).replace("AUTHOR", "LLaMA Factory") # 保存修改后的数据集 with open("/notebooks/LLaMA-Factory/data/identity.json", "w", encoding="utf-8") as f: json.dump(dataset, f, indent=2, ensure_ascii=False) ``` 此代码段会更新数据集中的 `output` 字段,并将其保存回原路径。 #### 2. 确保环境配置正确 在上传数据集前,需要确认当前工作目录位于项目的根目录下,否则可能会出现文件路径错误的问题[^4]。可以使用以下命令检查并切换到正确的目录: ```bash %cd /notebooks/LLaMA-Factory ``` #### 3. 数据集上传方法 根据目标平台的不同,上传数据集的方式可能有所差异。以下是几种常见场景及其对应的操作方法: - **本地环境**:如果目标是本地运行环境,则无需额外上传步骤,只需确保数据集路径正确即可。 - **云端平台(如 Google Colab、AWS)**: - 在 Google Colab 中,可以使用 `google.colab` 库将数据集从本地上传至云端: ```python from google.colab import files uploaded = files.upload() ``` 此代码会弹出一个文件选择框,允许用户选择本地文件并上传至 Colab 环境。 - 在 AWS S3 中,可以使用 `boto3` 库将数据集上传至指定存储桶: ```python import boto3 s3 = boto3.client('s3') bucket_name = 'your-bucket-name' file_name = '/notebooks/LLaMA-Factory/data/identity.json' s3.upload_file(file_name, bucket_name, 'identity.json') ``` - **Hugging Face Hub**:如果目标是将数据集上传至 Hugging Face 平台,则可以使用 `datasets` 库完成操作: ```python from datasets import Dataset, load_dataset # 加载数据集 with open("/notebooks/LLaMA-Factory/data/identity.json", "r", encoding="utf-8") as f: dataset_dict = json.load(f) dataset = Dataset.from_dict(dataset_dict) # 上传至 Hugging Face Hub dataset.push_to_hub("your-dataset-repo-name") ``` #### 4. 验证数据集上传结果 无论采用何种方式上传数据集,都需要验证上传是否成功。可以通过以下方式检查: - 在云端环境中,查看目标路径是否存在该文件。 - 在 Hugging Face Hub 中,访问数据集仓库页面,确认文件已正确上传。 --- ### 注意事项 - 确保数据集路径正确无误,避免因路径问题导致读取失败。 - 如果在上传过程中遇到权限问题,请检查目标平台的访问权限设置。 - 对于大型数据集,建议压缩后上传以减少传输时间。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值