GPT系列模型简要概述

部署运行你感兴趣的模型镜像

GPT-1:(0.117B参数量,0.8B words预训练数据)

动机:

在RNN和Transformer之间,选择了后者。

和《All your need is Attention》翻译模型的Encoder-Decoder架构相比,只保留Decoder,因此去掉了Cross-Attention层。没有使用sin、cos做位置编码,用的是可训练的位置编码。0.117B参数量。

预训练:

注意:是Embedding和最后一层分类层,参数共享的。原因:这个时期的模型参数小,Embedding参数量占的比重高,共享可以降低参数量。现在的模型参数大,Embedding占的比重小,都不再共享了。

微调(Fine Tune):

用上了特殊Token(Start、Extract、Delim),让模型感知到在做NLP任务,而不是在做句子生成。

Similarity任务,将句子1和句子2,用不同的顺序,做成2个样本,激活值相加,最后进Linear层去分类。

多选题任务,题目+选项,得到1个数值;每个选项都得到1个数值,这些数值做softmax;

Trick: 微调任务和预训练任务,同时进行训练。

训练数据:

Bert:

双向Encoder预训练;最后加1层线形层做下游任务微调。

效果碾压GPT-1:

GPT-2(1.542B参数量,40GB文字训练数据量)

动机:

下游任务,放弃特殊token,改用prompt:

模型变化:

训练变化:

效果:比不过FineTune模型。但发现了规律:随着参数量增大,效果仍可继续上升。

GPT-3: (175B参数量,300B token预训练数据量)

动机:

模型修改:

引入稀疏注意力机制(每个token只和前面的部分token进行attention计算,而不是前面全部token)

训练数据:

不同来源的数据,采样比例不一样。(质量差的数据,就少采样一些)

效果:超过了最好的Fine tune模型。

GPT-4:

效果:霸榜Top-1

Insight: 

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值