一、摘要
本文跟大家一起阅读的是清华大学的论文《MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies》

摘要:
对具有高达万亿参数的大型语言模型(LLMs)的兴趣日益增长,但同时也引发了对资源效率和实际成本的担忧,特别是考虑到实验的巨大成本。这种情况凸显了探索小型语言模型(SLMs)作为一种资源高效的替代方案的重要性。在此背景下,我们推出了 MiniCPM,特别是 12 亿和 24 亿非嵌入参数变体,它们不仅在各自类别中表现出色,而且展示出与 70 亿至 130 亿参数的大型语言模型相当的能力。在专注于小型语言模型的同时,我们的方法在模型和数据维度上都具有可扩展性,为未来的大型语言模型研究提供了方向。关于模型扩展,我们进行了广泛的模型风洞实验,以实现稳定和最优的扩展。对于数据扩展,我们引入了一种预热-稳定-衰减(WSD)学习率调度器(LRS),有利于持续训练和领域适应。我们对 WSD 学习率调度器中出现的有趣训练动态进行了深入分析。借助 WSD 学习率调度器,我们现在能够高效地研究数据-模型扩展规律,而无需在模型和数据两个轴上进行大量的重新训练实验,

最低0.47元/天 解锁文章
1304






