1 背景
去年,国内大模型赚钱最爽的一个方向,就是卖数据。
我也跟一些卖数据团队咨询过,他们把国内各个你能想到的主流中文平台的数据都爬下来,打包卖了。
国内的头部玩家,手头数据是一定不缺的,买就行了。
同时,这些玩家显卡资源管够的情况下,肯定是会把能train的数据都train一轮。
除非是预训练数据有大的更新,例如清洗的质量更高了,生成数据有大的突破。
或者训练手段有大的迭代,重训大模型的价值是在不断降低的。
但底座模型的通用能力,本身就是有上限的,它就是做不到所有都很强。
我们想要把某个领域加强,别的领域就或多或少的会被影响。
从2022年这篇OpenAI这篇论文开始,Training language models to follow instructions with human feedback。
Aligntment Tax就一直存在。

但很多场景,例如,教育,代码场景,用户的需求往往比较集中。
那么保证通用能力不跌很多的情况下,努力把domain效果提上去就好了。
也就是做continue pretrain(领域大模型)
除此之外
英文到中文的continue pretrain,例如把llama增训成中文(国内很多公司的操作,这并不丢人,效果还挺好)。
long context的continue pretrain。
关于continue pretrain做了一个小范围分享,具体参看论文。
https://arxiv.org/pdf/2406.01375
。
2 步骤
continue pretrain的步骤整体分成三步。
2.1 扩词表
不是所有的continue pretrain都需要扩词表。
举个例子
用llama英文底座,增训成中文的,因为词表差距很大,往往都需要添加词表。
做教育大模型,一堆标点符号,底座模型覆盖的不好,也需要扩充。
你需要自行判断,底座模型的词表跟你的任务的词表分布差距如何。

最低0.47元/天 解锁文章
6788

被折叠的 条评论
为什么被折叠?



