1.指令监督微调数据集
[ { "instruction": "人类指令(必填)", "input": "人类输入(选填)", "output": "模型回答(必填)", "system": "系统提示词(选填)", "history": [ ["第一轮指令(选填)", "第一轮回答(选填)"], ["第二轮指令(选填)", "第二轮回答(选填)"] ] } ]
对于上述格式的数据, dataset_info.json
中的 数据集描述 应为:
"数据集名称": { "file_name": "data.json", "columns": { "prompt": "instruction", "query": "input", "response": "output", "system": "system", "history": "history" } }
2.预训练数据集
[ {"text": "document"}, {"text": "document"} ]
对于上述格式的数据,