BERT模型家族介绍
1. 大语言模型的涌现能力
涌现能力指的是在较大模型中,某些能力会在没有明显或明确原因的情况下显现出来。其有趣之处在于,有可能通过进一步扩大模型规模来扩展语言模型的能力。
诺贝尔奖得主、物理学家菲利普·安德森在1972年的论文《多者异也》中提到:“当系统中的量变导致行为上的质变时,就出现了涌现现象。” 在一些情景中,少样本提示能力也被认为是一种涌现能力,即当模型在达到一定规模之前表现随机,之后性能显著提升。
需要注意的是,涌现能力无法通过外推较小模型的行为来预测,因为较小模型中不存在这些能力。未来,会有更多研究探索进一步扩大模型规模能在多大程度上为大语言模型带来更多涌现能力。
2. Kaplan理论与训练不足的模型
Kaplan等人提出了关于语言模型性能的经验幂律,他们认为模型性能取决于以下因素:
- 模型大小
- 数据集大小
- 训练计算量
他们还指出,改变网络的宽度或深度影响较小,并且超大型模型的最优训练只需相对适中的数据量。
然而,Chinchilla是一个拥有700亿参数的大语言模型,它在比Kaplan等人建议的大得多的数据集上进行训练,并且超越了多个比它大2 - 7倍的大语言模型,如Gopher(2800亿)、GPT - 3(1750亿)等,取得了最优性能。
Chinchilla的创建者在《神经语言模型的扩展定律》中给出了不同规模模型充分训练所需的建议词元数量。例如,1750亿、5200亿和1万亿参数的模型,建议训练集大小分别为3.7万亿、11.0万亿和21.2万亿词元。参数超过1万亿的大语言模型在创建建议大小的数据
超级会员免费看
订阅专栏 解锁全文
372

被折叠的 条评论
为什么被折叠?



