❗由于大模型的预训练需要数千个GPU并持续数月的时间,所以一般情况下实际工作中并不会涉及到预训练,本篇文章我们只做的简单流程体验。
1、准备训练数据
说明:LLaMa-Factory的Github上有训练数据格式的详细说明,请见README_zh。
• 预训练数据格式:[
{"text": "document"},
{"text": "document"}
]
-
数据集样例:
#按照数据集样例,我们准备如下的自定义预训练数据集,保存到data/custom_pt_train_data.json。
[
{"text":"患者在过去的五年中多次出现头痛症状。"},
{"text":"研究表明,适量运动有助于改善心血管健康。"},
{"text":"高血压患者需定期监测血压水平。"},
{"text":"糖尿病患者应注意饮食控制和胰岛素使用。"},
{"text":"流感疫苗每年接种可以有效预防流感。"},
{"text":"保持良好的睡眠习惯对心理健康至关重要。"},
{"text":"慢性咳嗽可能是肺部疾病的早期征兆。"},
{"text":"定期体检可以帮助早期发现健康问题。"},
{"text":"心理咨询对缓解焦虑和抑郁症状有效。"},
{"text":"饮食中增加纤维素有助于消化系统健康。"},
{"text":"适量饮水对维持身体正常功能非常重要。"},
{"text":"戒烟可以显著降低患肺癌的风险。"},
{"text":"高胆固醇水平可能导致心脏病。"},
{"text":"保持健康体重有助于降低多种疾病风险。"},
{"text":"心理健康与身体健康密切相关。"},
{"text":"儿童应定期进行视力和听力检查。"},
{"text":"老

最低0.47元/天 解锁文章
3071





