<论文>MiniCPM:利用可扩展训练策略揭示小型语言模型的潜力

一、摘要

        本文跟大家一起阅读的是清华大学的论文《MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

摘要:

        对具有高达万亿参数的大型语言模型(LLMs)的兴趣日益增长,但同时也引发了对资源效率和实际成本的担忧,特别是考虑到实验的巨大成本。这种情况凸显了探索小型语言模型(SLMs)作为一种资源高效的替代方案的重要性。在此背景下,我们推出了 MiniCPM,特别是 12 亿和 24 亿非嵌入参数变体,它们不仅在各自类别中表现出色,而且展示出与 70 亿至 130 亿参数的大型语言模型相当的能力。在专注于小型语言模型的同时,我们的方法在模型和数据维度上都具有可扩展性,为未来的大型语言模型研究提供了方向。关于模型扩展,我们进行了广泛的模型风洞实验,以实现稳定和最优的扩展。对于数据扩展,我们引入了一种预热-稳定-衰减(WSD)学习率调度器(LRS),有利于持续训练和领域适应。我们对 WSD 学习率调度器中出现的有趣训练动态进行了深入分析。借助 WSD 学习率调度器,我们现在能够高效地研究数据-模型扩展规律,而无需在模型和数据两个轴上进行大量的重新训练实验,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值