13、BERT模型家族介绍

最新推荐文章于 2025-09-26 15:15:48 发布

对方正在偷人346

最新推荐文章于 2025-09-26 15:15:48 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：解密Transformer与大模型文章标签： BERT 大语言模型涌现能力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/grpc6streamer/article/details/152641155

解密Transformer与大模型专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

BERT模型家族介绍

1. 大语言模型的涌现能力

涌现能力指的是在较大模型中，某些能力会在没有明显或明确原因的情况下显现出来。其有趣之处在于，有可能通过进一步扩大模型规模来扩展语言模型的能力。

诺贝尔奖得主、物理学家菲利普·安德森在1972年的论文《多者异也》中提到：“当系统中的量变导致行为上的质变时，就出现了涌现现象。” 在一些情景中，少样本提示能力也被认为是一种涌现能力，即当模型在达到一定规模之前表现随机，之后性能显著提升。

需要注意的是，涌现能力无法通过外推较小模型的行为来预测，因为较小模型中不存在这些能力。未来，会有更多研究探索进一步扩大模型规模能在多大程度上为大语言模型带来更多涌现能力。

2. Kaplan理论与训练不足的模型

Kaplan等人提出了关于语言模型性能的经验幂律，他们认为模型性能取决于以下因素：
- 模型大小
- 数据集大小
- 训练计算量

他们还指出，改变网络的宽度或深度影响较小，并且超大型模型的最优训练只需相对适中的数据量。

然而，Chinchilla是一个拥有700亿参数的大语言模型，它在比Kaplan等人建议的大得多的数据集上进行训练，并且超越了多个比它大2 - 7倍的大语言模型，如Gopher（2800亿）、GPT - 3（1750亿）等，取得了最优性能。

Chinchilla的创建者在《神经语言模型的扩展定律》中给出了不同规模模型充分训练所需的建议词元数量。例如，1750亿、5200亿和1万亿参数的模型，建议训练集大小分别为3.7万亿、11.0万亿和21.2万亿词元。参数超过1万亿的大语言模型在创建建议大小的数据

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。