csg-wukong-1B模型：OpenCSG让高端AI技术走向大众

本文链接：https://blog.youkuaiyun.com/OpenCSG/article/details/138134672

01 关于csg-wukong模型

csg-wukong是OpenCSG算法团队自研的预训练模型系列，其中base模型csg-wukong-1B是具有1B参数量的small language model（SLM）预训练模型。csg-wukong-1B具有参数量小、推理成本低、性能强悍等优点，可支持多种适用场景并灵活适配下游微调任务。

csg-wukong-1B模型在预训练阶段第一阶段采用了1T （3 epoch）tokens英文通用语料数据，其中包括了the pile、wikipedia、Commoncrawl、C4、StackExchange、Github、arxiv等数据集；在第二阶段训练使用了30B tokens合成数据，它们是通过gpt4、mixtral 8X7B、QWEN-72B 综合蒸馏得到的高质量训练数据，通过合适的数据配比完成了第二阶段的训练。

csg-wukong-1B在16张H800卡上进行了为期43天的预训练，这个消耗是很多研究者、企业、高校都可以接受的范围；同时由于模型仅有1B参数量，部署成本非常低，可以在个人PC、手机、各类IOT边端设备上进行部署，所以这是一个每个人都能负担得起的模型。

csg-wukong-1B模型下载与体验地址：

传神社区下载：https://opencsg.com/models/OpenCSG/csg-wukong-1B

传神社区模型在线体验：https://opencsg.com/spaces/OpenCSG/csg-wukong-1B

Huggingface社区：https://huggingface.co/opencsg/csg-wukong-1B

其中csg-wukong-1B在开源不到一周的时间内，已经在huggingface社区模型下载量直逼1K！！！

下面我们将从训练框架的选择及魔改、训练方法的优化、数据质量评估方法以及模型评测结果等多方面来介绍csg-wukong当前的工作情况。

02 高效的训练框架

OpenCSG采用了近期比较火热的pytorch-lightning框架对csg-wukong进行预训练，它的优点相比deepspeed、megatron更加轻量，在训练小参数量模型时候直接采用数据并行方法，如FSDP能获得极佳的训练速度，通信也相对较少，并且已经融合到Nvidia Nemo框架中，有较好的拓展性。

不仅如此，OpenCSG还对lightning框架进行了魔改，在训练前对数据量、显存、数据长度进行综合评估，配置当前硬件环境下最为合适的分词数据块，能够避免像huggingface tokenize api 容易造成显存分布不均以及显存碎片较多的问题。

lightning助力csg-wukong

批数据分词后显存占用均匀

预训练过程中，对GPU服务器的监控以及框架的稳定性非常重要，我们采用了wandb对lightning框架的训练过程进行监控，无论是GPU显存占用情况，还是GPU功耗，或者CPU、内存以及磁盘都可以实时监控。

另外，loss和ppl(困惑度)指标只能在训练前期阶段的时候满足我们对训练过程的分析，在loss和ppl曲线趋于平坦的时候，我们还需要监控benchmark评测指标，由于前期lightning版本没有融入lm-evaluation-harness，我们手动魔改了评测监控这部分功能，这样我们就能够清晰地看出在训练到哪一部分数据集时，相应的评测结果会变差，也能够为后面数据质量评估助力。后期我们会把魔改过的代码贡献给lightning项目，并会持续跟进该项目的发展。

03 进阶的训练方法

训练的方法对于大模型而言至关重要，尤其是SLM这个方向。目前已经有不少工作提出chinchilla optimal存在的局限性，训练数据规模和模型的比率可以放得更大。但是我们也尝试着用10M、30M、70M、120M的模型去跑scaling law实验，当数据价值比较高的时候，SLM性能仍然可以上升，也就是说scaling law没法衡量数据价值给模型带来的额外增益。

尽管如此，我们目前手上已经处理完的预训练数据还是较为有限，在OpenCSG以及huggingface社区上的开源数据集，经过自研的数据质量评估系统最终保留了1T （3epoch）tokens，在第二阶段的continue pretrain阶段采用高质量的合成数据，整个训练过程我们采用了两台8卡H800服务器进行了为期43天的训练。我们采用了常规训练参数设置以及在第二阶段预训练再次激活余弦学习率方式进行训练，这样做的目的是在模型与第一阶段的训练方法上和目前主流的预训练模型保持一致，以便于公平对比。除此之外，我们自研了一种模型增量训练的方法，可以使得模型在不遗忘先前知识的情况下持续训练，通过注入新的训练数据持续提高模型能力。