LLM Continue Pretrain

1 背景

去年,国内大模型赚钱最爽的一个方向,就是卖数据。
我也跟一些卖数据团队咨询过,他们把国内各个你能想到的主流中文平台的数据都爬下来,打包卖了。

国内的头部玩家,手头数据是一定不缺的,买就行了。
同时,这些玩家显卡资源管够的情况下,肯定是会把能train的数据都train一轮。

除非是预训练数据有大的更新,例如清洗的质量更高了,生成数据有大的突破。
或者训练手段有大的迭代,重训大模型的价值是在不断降低的。

但底座模型的通用能力,本身就是有上限的,它就是做不到所有都很强。

我们想要把某个领域加强,别的领域就或多或少的会被影响。
从2022年这篇OpenAI这篇论文开始,Training language models to follow instructions with human feedback。
Aligntment Tax就一直存在。

但很多场景,例如,教育,代码场景,用户的需求往往比较集中。
那么保证通用能力不跌很多的情况下,努力把domain效果提上去就好了。

也就是做continue pretrain(领域大模型)

除此之外
英文到中文的continue pretrain,例如把llama增训成中文(国内很多公司的操作,这并不丢人,效果还挺好)。
long context的continue pretrain。

关于continue pretrain做了一个小范围分享,具体参看论文。

https://arxiv.org/pdf/2406.01375

2 步骤

continue pretrain的步骤整体分成三步。

2.1 扩词表

不是所有的continue pretrain都需要扩词表。

举个例子
用llama英文底座,增训成中文的,因为词表差距很大,往往都需要添加词表。
做教育大模型,一堆标点符号,底座模型覆盖的不好,也需要扩充。

你需要自行判断,底座模型的词表跟你的任务的词表分布差距如何。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值