第九篇-自我意识数据准备

原创已于 2023-08-05 11:30:15 修改 · 868 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #chatgpt

于 2023-08-02 22:02:13 首次发布

AI-LLM-实战专栏收录该内容

73 篇文章

订阅专栏

文章介绍了如何从self_cognition.json文件中处理数据，替换特定内容并将其转换为train.json和dev.json，以便于ChatGLM模型的训练。作者还提到要修改dataset_info.json以识别自定义数据集的结构。

格式化自我意识数据用于ChatGLM微调

准备数据源

https://github.com/hiyouga/ChatGLM-Efficient-Tuning
cd data
self_cognition.json

代码self_process.py

#!/usr/bin/python
# -*- coding: UTF-8 -*- 

# 读取self_cognition自我认知解析并写入转换新文件

import json

# 读取self_cognition文件中的JSON列表
with open('self_cognition.json', 'r', encoding='utf-8') as f:
    data = json.load(f)


# 处理content和summary
def process_data(item):
    # 将instruction对应到content,output对应到summary
    item['content'] = item['instruction'].replace(' ', '')
    item['summary'] = item['output'].replace(' <NAME>', 'AI小木').replace('<AUTHOR>', '小吕').replace(' ', '')
    return item


# 将处理后的数据写入B文件
with open('self_cognition/train.json', 'w', encoding='utf-8') as f:
    for item in data:
        process_item = process_data(item)
        # 将一行JSON对象写入文件
        f.write('{"content":"'+process_item['content']+'","summary":"'+process_item['summary']+'"}')
        f.write('\n')

名称：AI小木
作者：小吕

可以自己替换

执行处理

python self_process.py

文件配置修改

我的train.json与dev.json一致，后期再处理吧

data/
├── dataset_info.json
└── self_cognition/
├── dev.json
└── train.json
接下来，我们修改 dataset_info.json，增加以下两列内容，从而使训练框架能够识别自定义数据集。

,
"self_cognition_train": {
    "file_name": "self_cognition/train.json",
    "columns": {
        "prompt": "content",
        "query": "",
        "response": "summary",
        "history": ""
    }
},
"self_cognition_dev": {
    "file_name": "self_cognition/dev.json",
    "columns": {
        "prompt": "content",
        "query": "",
        "response": "summary",
        "history": ""
    }
}