一、前言
前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型,以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory,评测使用OpenCompass 。大模型面向的任务:能写代码,能做简单的数学题。
二、训练
预训练
预训练语料的数据配比主要参考现有大模型预训练数据来源及分布,数据主要来源于Dolma 数据集。其中,Dolma 数据集中中文语料比较欠缺,因而补充WuDao 中文数据集。大模型 预训练语料来源以及配比情况如下:
| 数据集 |
类型 |
token数量(B) |
采样比例 |
| CC |
通用网页 |
19 |
2% |
| C4 |
通用网页 |
19 |
14% |