Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

LLM词汇标度定律

UnknownBody

于 2024-07-23 10:33:42 发布

阅读量187

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：人工智能 python 语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140628271

LLM Daily 专栏收录该内容

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies》的翻译。

词汇的标度定律：更大的模型对应更大的词汇

摘要
1 引言
2 前言
3 分析：为什么最佳词汇量受到计算的限制
4 估计最优词汇量
5 讨论
6 相关工作
7 结论

摘要

对扩展大型语言模型（LLMs）的研究主要集中在模型参数和训练数据大小上，忽视了词汇量的作用。我们通过训练具有各种词汇配置的多达500B字符的33M到3B参数的模型，研究了词汇量大小如何影响LLM缩放规律。我们提出了三种互补的方法来预测计算最优词汇量：IsoFLOPs分析、导数估计和损失函数的参数拟合。我们的方法都得出了相同的结果，即最佳词汇量取决于可用的计算预算，而较大的模型需要更大的词汇量。然而，大多数LLM使用的词汇量太小。例如，我们预测Llama2-70B的最佳词汇量应至少为216K，是其32K词汇量的7倍。我们通过在不同FLOP预算下使用3B参数训练模型来实证验证我们的预测。与常用的词汇量相比，采用我们预测的最佳词汇量可以持续提高下游性能。通过将词汇量从传统的32K增加到43K，我们在相同的2.3e21 FLOP下将ARC Challenge的性能从29.1提高到32.0。我们的工作强调了共同考虑模型参数和词汇量以实现有效缩放的必要性。

1 引言

2 前言

3 分析：为什么最佳词汇量受到计算的限制

4 估计最优词汇量

5 讨论

6 相关工作

7 结论

我们研究了在缩放语言模型时词汇量的影响。我们分析并验证了在给定的FLOP预算下存在一个最佳词汇量。随后，我们开发了3种方法来预测最佳词汇量。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。