【DW】LLM与PLM的区别?LLM是如何训出来的 task08?

第四章 大语言模型

(这是笔者自己的学习记录,仅供参考,愿 LLM 越来越好❤)由于篇幅较长,本篇会先讲如何做LLM的第一个阶段预训练,下一篇会讲后面的两个阶段


初识LLM

LLM = Large Language Model = 大语言模型
就是训练数据T级别、参数百亿10B+都很大,在多卡分布集群训出来的语言模型,也正因此让模型一下子超神了(涌现能力:语言能力一下子远超传统的PLM)

所以回答标题问题,和PLM的区别就是,LLM更大了,训练范式从预训练+微调,LLM的训练见下文


训一个LLM的步骤

主要有3个阶段:

  • Pretrain 预训练
  • SFT 监督微调
  • RLHF 人类反馈强化学习

接下来看下每个阶段的难点


阶段1:Pretrain

ps:这里就是和之前章节介绍过的PLM差不多,都是训练一个模型出来,因为后面还要继续对这个模型进行调整修改,所以这一阶段的模型叫做预训练模型,阶段叫预训练。很直观了。

预训练阶段,采用的架构是类GPT的decoder-only架构,任务是CLM。


一些模型训练参数对比

在这里插入图片描述


LLM 参数量和训练数据的爱恨情仇

指的是参数量和训练语料量的经验规律
Scaling Law(OpenAI):

C ( 计算量 ) ∼ 6 N ( 参数量 ) D ( t o k e n 数 ) C(计算量) \sim 6N(参数量)D(token数) C(计算量)6N(参数量)D(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值