(LLaMa Factory)大模型训练方法--预训练（Qwen2-0.5B）

最新推荐文章于 2025-05-21 10:19:03 发布

原创

最新推荐文章于 2025-05-21 10:19:03 发布 · 1.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#llama

❗由于大模型的预训练需要数千个GPU并持续数月的时间，所以一般情况下实际工作中并不会涉及到预训练，本篇文章我们只做的简单流程体验。

1、准备训练数据

说明：LLaMa-Factory的Github上有训练数据格式的详细说明，请见README_zh。

• 预训练数据格式：[
{"text": "document"},
{"text": "document"}
]

数据集样例：

#按照数据集样例，我们准备如下的自定义预训练数据集，保存到data/custom_pt_train_data.json。

[
  {"text":"患者在过去的五年中多次出现头痛症状。"},
  {"text":"研究表明，适量运动有助于改善心血管健康。"},
  {"text":"高血压患者需定期监测血压水平。"},
  {"text":"糖尿病患者应注意饮食控制和胰岛素使用。"},
  {"text":"流感疫苗每年接种可以有效预防流感。"},
  {"text":"保持良好的睡眠习惯对心理健康至关重要。"},
  {"text":"慢性咳嗽可能是肺部疾病的早期征兆。"},
  {"text":"定期体检可以帮助早期发现健康问题。"},
  {"text":"心理咨询对缓解焦虑和抑郁症状有效。"},
  {"text":"饮食中增加纤维素有助于消化系统健康。"},
  {"text":"适量饮水对维持身体正常功能非常重要。"},
  {"text":"戒烟可以显著降低患肺癌的风险。"},
  {"text":"高胆固醇水平可能导致心脏病。"},
  {"text":"保持健康体重有助于降低多种疾病风险。"},
  {"text":"心理健康与身体健康密切相关。"},
  {"text":"儿童应定期进行视力和听力检查。"},
  {"text":"老

最低0.47元/天解锁文章

4 条评论

ntfu6j 2025.03.24
我用自己的数据集预训练结束后，为什么模型并没有学到数据集的知识呢？这正常吗？
- qq_41798914回复ntfu6j 2025.03.27
  不是没学到你需要之后微调

gaotao111 2025.03.05
准备了12000条数据的训练集，为何 Num examples只有1800？在dataset_info中设置了num_samples，在指令中也指定了max_samples也不行
- 风起晨曦回复gaotao111 2025.03.13
  在数据预处理阶段，可能有一些过滤逻辑（如去除空值、异常值等），导致部分数据被丢弃。