LLM实践系列-拯救Continue Pretrain的数据-优快云博客

本文链接：https://blog.youkuaiyun.com/AIBigModel/article/details/143079070

今天给大家带来知乎@真中合欢的一篇文章，《LLM实践系列-拯救Continue Pretrain的数据》。

知乎：https://zhuanlan.zhihu.com/p/721492096

打分清洗的文章难产，写起来没有思路，就换换脑子写写旁门左道，探讨一下common数据质量不理想的情况下，如何做一个还可以的Continue Pretrain。

背景

首先介绍下什么是Continue Pretrain（CP）。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段，在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段，目的是为模型注入领域知识，这个领域是泛指的领域，既包含金融、法律、创作这种学科领域，也包含推理、理解这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限，也就是我们的模型还能学习更多知识，进行更准确的推理。但是做法却并不容易，简单的next token loss + generate 已经无法满足要求了。但是如果只求提升某一方面的能力，那在某一个领域训练一个领域大模型无疑是更简单有效的方法。根据我的训练经验，做领域相关的通用任务，比如金融领域的文档总结或信息抽取，再比如小说剧本的创作，领域模型通常是好于通用模型的。

经常有人问我注入领域知识SFT不行吗，为什么要CP？我的回答是并没有不行，只是看量而已。SFT和Pretrain主要区别就是数据量和多样性，Pretrain的数据量更大，多样性更丰富，和现实世界自然语料的分布更接近，因此不需要case by case的关注数据质量，更多的只要保证数据源的质量和可信度，多样性可以由其他数据源混合来提高。SFT可以认为数据是人类偏好、任务导向的数据，相比于自然世界的语料是有偏的。需要严格确保数据质量和丰富性，防止出现hacking。