-
大模型的定义:通常指具有超大参数规模的预训练语言模型
-
架构:主要为
Transformer Decoder -
训练:预训练(base model)、后训练(instruct model)
扩展定律
通过扩展模型的参数规模、数据规模、计算算力,大语言模型的能力会出现显著提升。
KM扩展定律
-
提出背景:由OpenAI的研究团队在《Scaling Laws for Neural Language Models》中提出,基于对模型规模、数据量和计算量关系的实证研究。
-
核心结论:
-
性能与规模的幂律关系:模型测试损失(性能)随模型参数(N)、数据量(D)和计算量(C)的增加按幂律下降。
-
资源分配比例:当计算量增加时,模型参数和数据集的最优分配遵循 N \propto C^{0.73},D \propto C^{0.27}。即,计算资源应更多分配给模型参数而非数据量。
-
瓶颈效应:当模型过小或数据不足时,性能会受限于对应的瓶颈因素。
-
-
意义:为大规模模型训练提供了初步指导,强调在有限计算预算下优先扩大模型规模。
Chinchilla扩展定律
-
提出背景:DeepMind在训练700亿参数的Chinchilla模型时发现,现有模型(如2800亿参数的Gopher)的数据量未达最优,从而提出更高效的扩展策略。
-
核心结论:
-
平衡扩展原则:模型参数和训练数据应等比例扩展,即 N \propto C^{0.5},D \propto C^{0.5}。例如,计算量翻倍时,模型参数和数据集均扩大约1.4倍(√2)。
-
更高效利用计算资源:在相同计算量下,较小的模型配合更多数据训练(如Chinchilla的700亿参数+1.4T tokens)优于仅扩大模型(如Gopher的2800亿参数+300B tokens)。
-
数学形式:测试损失的最优解需满足 模型FLOPs ≈ 数据FLOPs,即两者的计算贡献均衡。
-
-
意义:修正了KM定律的不足,证明数据量的重要性被低估,推动业界向“小模型+大数据”的高效训练范式转变。
| 维度 | KM扩展定律 | Chinchilla扩展定律 |
|---|---|---|
| 资源分配 | 模型参数优先(N↑↑, D↑) | 模型与数据平衡(N↑, D↑) |
| 计算量分配 | N \propto C^{0.73},D \propto C^{0.27} | N \propto C^{0.5},D \propto C^{0.5} |
| 实践影响 | 推动模型参数增长(如GPT-3) | 倡导数据充分训练(如LLaMA-2) |
| 关键结论 | 模型规模主导性能提升 | 数据量与模型规模需协同优化 |
涌现能力
什么时涌现能力?
-
原始论文定义:在小模型中不存在,但在大模型中出现的能力
-
当模型扩展到一定规模时,特定任务性能突然出现显著跃升趋势
涌现能力的几种形式
-
指令遵循能力(zero-shot)
-
上下文学习能力(few-shot)
-
逐步推理的能力(CoT)
1004

被折叠的 条评论
为什么被折叠?



