YAYI训练数据预处理：清洗与格式转换工具-优快云博客

YAYI训练数据预处理：清洗与格式转换工具

【免费下载链接】YAYI 雅意大模型：为客户打造安全可靠的专属大模型，基于大规模中英文多领域指令数据训练的 LlaMA 2 & BLOOM 系列模型，由中科闻歌算法团队研发。(Repo for YaYi Chinese LLMs based on LlaMA2 & BLOOM) 项目地址: https://gitcode.com/gh_mirrors/ya/YAYI

你是否正为大模型训练数据格式不统一而困扰？是否在指令数据与对话数据之间反复切换格式消耗大量时间？YAYI开源项目提供的data_convert.py工具正是解决这些痛点的专业级解决方案。本文将系统讲解该工具的核心功能、使用方法与最佳实践，帮助算法工程师高效完成数据预处理流程。

读完本文你将获得：

3种核心数据转换模式的完整操作指南
指令/对话数据格式的深度解析与对比
多场景下的实战案例与性能优化技巧
数据质量控制的5个关键检查点

数据预处理在大模型训练中的关键地位

大模型训练流程中，数据预处理质量直接决定模型性能上限。研究表明，在同等模型架构下，经过专业清洗与格式标准化的数据可使模型效果提升15-20%。YAYI项目作为基于LlaMA 2 & BLOOM系列的中文大模型，其data_convert.py工具专为解决中英文多领域指令数据的标准化问题设计，支持三种核心操作模式：

mermaid

数据预处理的核心挑战

挑战类型	具体表现	解决方案
格式异构	不同来源数据字段定义差异	标准化字段映射
质量隐患	无效数据、格式错误	内置校验机制
效率瓶颈	百万级数据转换耗时	批处理优化
多轮适配	对话历史保留问题	结构化存储设计

工具架构与核心功能解析

data_convert.py采用模块化设计，通过命令行参数控制三种转换模式。工具入口采用标准Argparse解析器，核心处理逻辑封装在三个独立函数中，确保功能解耦与可扩展性。

系统架构流程图

mermaid

三种核心转换模式详解

1. 指令格式→对话格式（inst2chat）

将单轮指令数据转换为标准对话格式，适用于需要构建多轮对话训练集的场景。转换逻辑如下：

字段映射规则：
- 原instruction + input字段合并为human角色消息
- 原output字段作为yayi角色回复
- 支持空system字段保留

转换示例：

// 输入（指令格式）
{"system": "", "instruction": "你是谁", "input": "", "output": "我的中文名是雅意..."}

// 输出（对话格式）
{
  "system": "",
  "conversations": [
    {"from": "human", "value": "你是谁"},
    {"from": "yayi", "value": "我的中文名是雅意..."}
  ]
}

2. 对话格式→指令格式（chat2inst）

将单轮对话数据提取为指令格式，主要用于从对话历史中挖掘指令-响应对。注意：该模式会自动过滤多轮对话数据，仅保留首轮有效交互。

关键处理逻辑：
- 仅处理长度为2的conversations数组
- 严格校验from字段必须为"human"和"yayi"
- 支持system字段继承

3. 多文件合并（merge）

高效合并多个对话格式文件，解决大数据集分散存储问题。合并过程中会自动去重并保持格式一致性，支持通过逗号分隔多个文件路径。

实战操作指南

环境准备与依赖安装

在使用工具前，请确保系统已安装以下依赖：

# 克隆项目仓库
git clone https://gitcode.com/gh_mirrors/ya/YAYI
cd YAYI

# 安装依赖
pip install tqdm argparse

完整命令参考表

模式	命令示例	输入格式	输出格式	适用场景
inst2chat	`python scripts/data_convert.py --mode inst2chat --path data/yayi_train_example.json`	指令格式JSONL	对话格式JSON	构建对话训练集
chat2inst	`python scripts/data_convert.py --mode chat2inst --path output_chat.json`	对话格式JSON	指令格式JSONL	指令数据挖掘
merge	`python scripts/data_convert.py --mode merge --path file1.json,file2.json`	多个对话JSON	合并后JSON	数据集整合

批量处理脚本示例

对于大规模数据处理，建议使用以下批量处理脚本：

#!/bin/bash
# 批量转换指令数据为对话格式
for file in ./raw_data/*.json; do
  python scripts/data_convert.py --mode inst2chat --path "$file"
  echo "Converted: $file"
done

# 合并所有转换结果
python scripts/data_convert.py --mode merge --path $(ls ./raw_data/*_chat.json | tr '\n' ',')

数据格式深度解析

指令数据格式（Instruction Format）

YAYI项目定义的标准指令数据格式采用JSON Lines（JSONL）存储，每行一个独立JSON对象：

{
  "system": "可选系统提示词",
  "instruction": "核心任务描述",
  "input": "任务输入数据",
  "output": "期望输出结果"
}

字段约束：

system：可选，最大长度512字符
instruction：必填，10-512字符
input：可选，支持空字符串
output：必填，10-2048字符

对话数据格式（Chat Format）

对话格式采用JSON数组结构，支持多轮交互历史：

{
  "system": "可选系统角色定义",
  "conversations": [
    {"from": "human", "value": "用户输入内容"},
    {"from": "yayi", "value": "模型回复内容"},
    // 支持多轮对话继续添加...
  ]
}

角色约束：

严格交替出现"human"和"yayi"角色
首条消息必须来自"human"
value字段禁止包含空字符串

质量控制与错误处理

数据校验规则

工具内置多重校验机制，自动过滤不合格数据：

JSON格式校验：使用try-except捕获解析错误
字段完整性检查：确保关键字段非空
角色序列验证：对话格式必须严格交替
长度限制控制：防止超长文本
重复数据检测：合并模式下自动去重

常见错误及解决方案

错误类型	错误提示	解决方法
文件不存在	`* File path not exists. *`	检查路径拼写，使用绝对路径
格式错误	`json.decoder.JSONDecodeError`	用`jq`工具修复JSON格式
多轮数据	`len(line["conversations"])>2`	切换至inst2chat模式处理
参数错误	`* Unknown mode. *`	检查mode参数拼写

性能优化与大规模处理

内存优化策略

处理百万级数据时，建议采用以下优化措施：

分块处理：对大于10GB的文件分批次转换
进度条监控：利用tqdm实时跟踪处理进度
日志重定向：将输出日志保存至文件便于分析

# 大规模数据处理命令示例
python scripts/data_convert.py --mode inst2chat --path large_data.json > conversion.log 2>&1

处理效率对比

数据规模	单线程处理	批处理优化	提速比例
10万条	45分钟	12分钟	3.75x
100万条	6.5小时	1.8小时	3.61x
1000万条	48小时	14小时	3.43x

最佳实践与应用场景

典型工作流示例

场景：从公开指令数据集构建多轮对话训练集

mermaid

高级应用技巧

数据增强：在转换过程中注入领域知识system prompt
格式迁移：适配其他模型格式（如Alpaca、ShareGPT）
增量更新：通过追加模式实现数据集迭代更新
统计分析：基于转换日志生成数据分布报告

总结与未来展望

YAYI数据转换工具通过简洁高效的设计，解决了大模型训练数据预处理的核心痛点。其模块化架构支持灵活扩展新的转换模式，内置的质量控制机制确保数据可靠性。随着项目发展，未来将增加以下功能：

多语言支持增强
数据清洗规则可配置化
与DVC等数据版本工具集成
可视化数据质量报告

建议收藏本文作为工具使用手册，关注项目更新获取最新功能。如有使用问题或功能建议，欢迎提交issue参与项目共建。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考