GPT-4o微调SFT及强化学习DPO数据集构建

jacky_wxl(微信同号）

于 2025-02-12 16:33:43 发布

阅读量503

点赞数 2

分类专栏：大模型文章标签： SFT DPO gpt-4o

本文链接：https://blog.youkuaiyun.com/wxl781227/article/details/145595198

版权

假设，已经标注的训练数据集df包含了提示词、输入和输出三列。

构建微调SFT的数据集代码如下：

data = []
for x in df.values:
    prompt = x[1]
    user_content = x[2]
    assistant_content = x[3]
    
    data.append({"messages": [{"role": "system", "content": prompt}, {"role": "user", "content": user_content},{"role": "assistant", "content": assistant_content}]})
data[0]

import json

# 将数据写入.jsonl文件
with open('sft_train.jsonl', 'w') as f:
    for item in data:
        json.dump(item, f)
        f.write('\n')  # 每行一个JSON对象

假设，已经标注的强化学习数据集df包含用户输入、首选输出、次选输出三列。

构建强化学习DPO的数据集代码如下：

dpo_data = []
for x in sft_df.values:
    user_content = x[1]

最低0.47元/天解锁文章