[AI]算法小抄-State of GPT (Andrej Karpthy MSBuild2023 )

系列文章主要目的快速厘清不同方法的原理差异和应用场景,

对于理论的细节请参考文末的Reference,

Reference中会筛选较为正确,细节的说明

Andrej Karpthy 离开Tesla之后加入OpenAI 首次的公开演讲,也是OpenAI首次对外公布chatGPT详细的技术细节(之前网路流传的版本多半是根据InstructionGPT而来)

以下我们直接按照完整的训练流程顺序介绍

Petraining

  • 训练成本:预训练占用整体流程的99%的时间,也是成本最昂贵,门槛最高的阶段。下面展示了GPT3和LLaMA的训练时间和成本。2020年的GPT3就用了1000以上的V100,一个月以上的训练时间,花费将近100~1000万美元。非常惊人的一个数字

  • Tokenization预训练还有一个重要任务,就是让大模型学会认字,俗称标记化(Tokeni

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值