DataWhale大语言模型学习第二课:大模型技术基础

  • 大模型的定义:通常指具有超大参数规模的预训练语言模型

  • 架构:主要为Transformer Decoder

  • 训练:预训练(base model)、后训练(instruct model)

扩展定律

通过扩展模型的参数规模、数据规模、计算算力,大语言模型的能力会出现显著提升。

KM扩展定律
  • 提出背景:由OpenAI的研究团队在《Scaling Laws for Neural Language Models》中提出,基于对模型规模、数据量和计算量关系的实证研究。

  • 核心结论

    1. 性能与规模的幂律关系:模型测试损失(性能)随模型参数(N)、数据量(D)和计算量(C)的增加按幂律下降。

    2. 资源分配比例:当计算量增加时,模型参数和数据集的最优分配遵循 N \propto C^{0.73},D \propto C^{0.27}。即,计算资源应更多分配给模型参数而非数据量。

    3. 瓶颈效应:当模型过小或数据不足时,性能会受限于对应的瓶颈因素。

  • 意义:为大规模模型训练提供了初步指导,强调在有限计算预算下优先扩大模型规模。

Chinchilla扩展定律
  • 提出背景:DeepMind在训练700亿参数的Chinchilla模型时发现,现有模型(如2800亿参数的Gopher)的数据量未达最优,从而提出更高效的扩展策略。

  • 核心结论

    1. 平衡扩展原则:模型参数和训练数据应等比例扩展,即 N \propto C^{0.5},D \propto C^{0.5}。例如,计算量翻倍时,模型参数和数据集均扩大约1.4倍(√2)。

    2. 更高效利用计算资源:在相同计算量下,较小的模型配合更多数据训练(如Chinchilla的700亿参数+1.4T tokens)优于仅扩大模型(如Gopher的2800亿参数+300B tokens)。

    3. 数学形式:测试损失的最优解需满足 模型FLOPs ≈ 数据FLOPs,即两者的计算贡献均衡。

  • 意义:修正了KM定律的不足,证明数据量的重要性被低估,推动业界向“小模型+大数据”的高效训练范式转变。

维度KM扩展定律Chinchilla扩展定律
资源分配模型参数优先(N↑↑, D↑)模型与数据平衡(N↑, D↑)
计算量分配N \propto C^{0.73},D \propto C^{0.27}N \propto C^{0.5},D \propto C^{0.5}
实践影响推动模型参数增长(如GPT-3)倡导数据充分训练(如LLaMA-2)
关键结论模型规模主导性能提升数据量与模型规模需协同优化

涌现能力

什么时涌现能力?
  • 原始论文定义:在小模型中不存在,但在大模型中出现的能力

  • 当模型扩展到一定规模时,特定任务性能突然出现显著跃升趋势

涌现能力的几种形式
  1. 指令遵循能力(zero-shot)

  2. 上下文学习能力(few-shot)

  3. 逐步推理的能力(CoT)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值