LLaMA-Factory训练数据集

原创

已于 2024-09-22 21:04:32 修改 · 2.3k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#LLaMA-Factory #微调

于 2024-09-22 21:01:17 首次发布

1.指令监督微调数据集

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "output": "模型回答（必填）",
    "system": "系统提示词（选填）",
    "history": [
      ["第一轮指令（选填）", "第一轮回答（选填）"],
      ["第二轮指令（选填）", "第二轮回答（选填）"]
    ]
  }
]

对于上述格式的数据， dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}

2.预训练数据集

[
  {"text": "document"},
  {"text": "document"}
]

对于上述格式的数据， dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "text"
  }
}

3.偏好数据集

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "chosen": "优质回答（必填）",
    "rejected": "劣质回答（必填）"
  }
]

对于上述格式的数据，dataset_info

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

苍墨穹天

关注关注

17
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

11、LLaMA-Factory自定义数据集微调

Andy_shenzl的博客

09-06

1万+

针对实际的微调需求，使用专门针对业务垂直领域的私有数据进行大模型微调才是我们需要做的。因此，我们需要探讨如何在LLaMA-Factory项目及上述创建的微调流程中引入自定义数据集进行微调。alpaca和sharegpt。

使用LLaMA-Factory微调时的数据集选择

羊城迷鹿的博客

11-25

1186

LLamaFactory 提供了丰富的默认数据集，涵盖了自然语言处理（NLP）领域的多种任务。这些数据集广泛应用于各类研究和实际应用中，帮助训练更强大的模型。接下来，我将详细介绍这些数据集的种类、特点、使用方法以及如何选择适合您的任务的数据集。数据集名称主要特点适合任务语言来源高质量指令-响应对指令跟随、文本生成英文人工生成GLaIVE工具使用、API调用工具使用、多任务英文人工生成LLaMA多模态（文本+图像）、指令跟随指令跟随、文本生成、图像生成多语言人工生成。

参与评论您还未登录，请先登录后发表或查看评论

llama-factory-llama3微调中文数据集

weixin_40777649的博客

06-27

1505

基准模型测试opencompass 离线测评数据准备微调训练合并测试人工审核对比。

数据集准备

m0_67876774的博客

06-24

2354

"第一轮指令（选填）", "第一轮回答（选填）"],["第二轮指令（选填）", "第二轮回答（选填）"]"instruction": "人类指令（必填）","system": "系统提示词（选填）","system": "系统提示词（选填）","output": "模型回答（必填）","input": "人类输入（选填）","value": "人类指令""value": "工具参数""value": "工具结果""value": "模型回答""tools": "工具描述（选填）"

LLaMA Factory 微调教程：如何构建高质量数据集？

Python_cocola的博客

06-17

929

在开始学习之前，首先我们先补充演示一下，我们整体这次微调教程中，微调案例的一个最终效果。在本教程中，我们微调的基础模型是 Qwen2.5-7B-Instruct ，目标是微调后让其在特定场景下具备一定的推理能力，并且在 Web 安全领域具备专家级水准。

llama-factory SFT系列教程 (二)，大模型在自定义数据集 lora 训练与部署

热门推荐

jieshenai的博客

04-12

2万+

本文为 llama-factory SFT系列教程的第二篇；实现了在自定义数据集上 lora 微调大模型；接着融合lora权重进行大模型推理的功能

大模型开发和微调工具Llama-Factory--＞数据处理

weixin_46034279的博客

12-01

2807

包含了所有经过处理的本地数据集 和在线数据集。如果使用本地数据集，务必在中添加对应数据集及其内容的定义目前支持Alpaca格式和ShareGPT的格式。

LLaMA-Factory之数据集使用与注册（NL2SQL）

qq_43588095的博客

03-27

1300

本笔记全面介绍了LLaMA - Factory框架下数据集的使用与注册流程，涵盖了NL2SQL技术基础、数据集格式、数据处理与转换、数据集注册和模型微调准备等内容。在实际操作中，开发者应根据具体任务需求选择合适的数据集和模型，严格按照流程进行数据处理与注册，为高质量的模型训练奠定基础。

llama-factory一个数据微调用例

07-26

在微调过程中，理解数据集的内容和结构至关重要，因为这将影响模型的训练和性能。 2. **Client.py**：这个文件可能是Python脚本，提供了与"llama-factory"交互的客户端接口。它可能包含了数据加载、模型配置、训练...

LLama-Factory大模型训练框架，基于自己数据集微调qwen7B模型实战

dream_home8407的博客

07-04

3499

LLama-Factory，大模型训练框架，支持多种模型，多种训练方式，link。

自定义数据集使用llama_factory微调模型并导入ollama

weixin_53162188的博客

04-14

1万+

本文所有操作均在linux系统下完成。

LLaMA大模型训练工厂

03-14

多种开源大模型训练微调整合工具包适用于人工智能领域爱好者及开发者应用于大模型的私有化训练业务场景多种开源大模型训练微调整合工具包适用于人工智能领域爱好者及开发者应用于大模型的私有化训练业务场景

llamafactory读取数据集详细源码追溯

m0_63372012的博客

08-23

971

llamafactory读取数据集详细源码追溯

LLaMA Factory 微调框架数据加载

OFFTime_we的博客

01-13

2018

随着大语言模型（Large Language Models）的快速发展，如何高效地对模型进行微调，已成为模型开发和应用中的重要环节。而在微调过程中，数据预处理与加载是确保模型性能的基础环节。面对庞大且复杂的数据集，合理的预处理策略和高效的数据加载机制，不仅能提高训练效率，还能有效改善模型的泛化能力。

书生·浦语大模型实战营之手把手带你评测 Llama 3 能力（OpenCompass 版）

大模型与Agent智能体

05-07

1413

书生·浦语大模型实战营之手把手带你评测 Llama 3 能力（OpenCompass 版）运行结果为： ✨下载 Llama3 模型通过 OpenXLab 下载 Llama-3-8B-Instruct 这个模型或者软链接 InternStudio 中的模型 🛠️安装 OpenCompass 运行结果为：📂 数据准备运行结果为： 数据集共85个目录，1062个文件。查询Llama 的配置文件路径 🏗️命令行快速评测以C-Eval_gen为例：命令解析：查询gpu情况，设置export CU

LLaMA-Factory数据集格式详解：从Alpaca到ShareGPT的完整指南

06-19

212

本文深入探讨了LLaMA-Factory框架支持的数据集格式，从基础的Alpaca格式到复杂的ShareGPT格式，全面介绍了各种数据格式的特点、使用场景和实现方法。通过详细的代码示例和最佳实践，帮助开发者快速掌握数据集准备和处理技巧，为模型训练提供高质量的数据支持。mindmaproot((数据集格式))文件格式JSONJSONLCSVParquetArrow数据格式AlpacaShareGPT数据类型指令监督预训练偏好学习多模态。

【04】LLaMA-Factory微调大模型——数据准备

H66778899的博客

07-18

6403

【04】LLaMA-Factory微调大模型——数据准备

LLaMA-Factory 使用 sharegpt 格式的数据集

二分掌柜的

09-20

8624

flyfish

llama factory 是如何加载数据集 通过对数据集加载的代码的理解编写自定义数据集训练代码

weixin_41046245的博客

03-11

3271

是一个独立文件读取的Python函数，用于根据提供的参数加载数据集。的函数，其目的是根据给定的参数加载和预处理一个数据集。这段Python代码定义了一个名为。第一层从训练代码追踪到以下代码。第二层阅读加载单个数据的代码。

LLaMA-Factory训练自己的数据集

02-22

### 如何使用 LLaMA-Factory 训练自定义数据集 #### 准备环境和安装依赖库为了能够顺利运行 LLaMA-Factory 并训练自定义的数据集，需要先准备好 Python 环境并安装必要的依赖包。通常情况下，这可以通过创建一个新的虚拟环境来完成，并通过 pip 或 conda 安装所需的软件包。 #### 配置命令行参数当利用 LLaMA-Factory 开始训练之前，配置合适的命令行参数是非常重要的。对于加载特定模型而言，`--model_name_or_path` 参数应当被设定为目标模型的 ID，比如 `modelscope/Llama-2-7b-ms`[^2]。此路径指向存储于魔搭社区中的预训练模型资源位置。 #### 处理自定义数据集 为了让 LLaMA-Factory 能够处理新的数据源，在启动训练过程前还需要对输入文件做适当调整。一般会涉及到将文本转换成适合喂给神经网络的形式，例如 tokenization 和 padding 操作。具体实现取决于所使用的框架版本以及具体的任务需求。 #### 启动训练脚本一旦所有的准备工作都已完成，则可以执行带有上述提到的各种选项的实际训练指令了。下面给出了一段简单的 Python 代码片段作为例子展示如何调用这些功能： ```python from transformers import Trainer, TrainingArguments, AutoModelForCausalLM, AutoTokenizer import datasets tokenizer = AutoTokenizer.from_pretrained('modelscope/Llama-2-7b-ms') model = AutoModelForCausalLM.from_pretrained('modelscope/Llama-2-7b-ms') dataset = datasets.load_dataset('path_to_custom_data') # 加载本地或远程数据集 tokenized_datasets = dataset.map(lambda examples: tokenizer(examples['text']), batched=True) training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=8, save_steps=10_000, save_total_limit=2, ) trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_datasets["train"], ) trainer.train() ``` 这段代码展示了如何初始化 Hugging Face 的 Transformer 库所提供的 `Trainer` 类来进行高效便捷的大规模语言模型训练工作流管理[^1]。