LLM实践系列-拯救Continue Pretrain的数据

今天给大家带来知乎@真中合欢的一篇文章,《LLM实践系列-拯救Continue Pretrain的数据》。

知乎:https://zhuanlan.zhihu.com/p/721492096

打分清洗的文章难产,写起来没有思路,就换换脑子写写旁门左道,探讨一下common数据质量不理想的情况下,如何做一个还可以的Continue Pretrain。

背景

首先介绍下什么是Continue Pretrain(CP)。CP 和 Pretrain、SFT一样指的是 LLM 训练的一个阶段,在前大模型时代还被称作Post Pretrain。CP 是在Pretrain和SFT之间的训练阶段,目的是为模型注入领域知识,这个领域是泛指的领域,既包含金融、法律、创作这种学科领域,也包含推理、理解这种能力领域。现在很多论文工作都说明了我们的通用基座模型还没有达到各个尺寸模型的上限,也就是我们的模型还能学习更多知识,进行更准确的推理。但是做法却并不容易,简单的next token loss + generate 已经无法满足要求了。但是如果只求提升某一方面的能力,那在某一个领域训练一个领域大模型无疑是更简单有效的方法。根据我的训练经验,做领域相关的通用任务,比如金融领域的文档总结或信息抽取,再比如小说剧本的创作,领域模型通常是好于通用模型的。

经常有人问我注入领域知识SFT不行吗,为什么要CP?我的回答是并没有不行,只是看量而已。SFT和Pretrain主要区别就是数据量和多样性,Pretrain的数据量更大,多样性更丰富,和现实世界自然语料的分布更接近,因此不需要case by case的关注数据质量,更多的只要保证数据源的质量和可信度,多样性可以由其他数据源混合来提高。SFT可以认为数据是人类偏好、任务导向的数据,相比于自然世界的语料是有偏的。需要严格确保数据质量和丰富性,防止出现hacking。

灾难性遗忘

灾难性遗忘是指在训练domain数据时,模型向domain数据的分布偏移,导致通用能力大幅减弱。缓解灾难性遗忘除了各种trick,如模型部分训练、加正则、减小学习率、模型融合等,必做的操作是混合common数据。</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值