论文阅读笔记——GPT-1,GPT-2,GPT-3,InstructGPT

GPT-1

GPT-1 论文
传统 NLP 需要大量人工标注数据,且词嵌入技术(Word2Vec)仅学习词级表示,无法捕捉句子之间逻辑关系。且对于各个任务(机器翻译、语言建模等)需独立设计模型且迁移复杂。
GPT-1的思想是先通过在无标签的数据上学习一个生成式的语言模型,然后再根据特定热任务进行微调。(自回归语言建模)

无监督预训练

基于语言模型进行训练,给定一个无标签的序列 U = { u 1 , u 2 , … … , u n } \mathcal{U}=\{u_1,u_2,……,u_n\} U={ u1,u2,……,un},语言模型的目标是最大化这个似然值:
L 1 ( U ) = ∑ i log ⁡ P ( u i ∣ u i − k , … … , u i − 1 ; Θ ) ( 1 ) L_1(\mathcal{U})=\sum_i\log P(u_i|u_{i-k},……,u_{i-1};\Theta) \qquad \qquad (1) L1(U)=ilogP(uiuik,……,ui1;Θ)(1)
其中 k 是滑动窗口大小,P 是条件概率, Θ \Theta Θ 是模型参数。
在这里插入图片描述
在 GPT-1 中,使用了 12 个 Transformer 块作为解码器,每个 Transformer 块是一个掩码多头自注意力,通过全连接得到输出的概率分布。(Decoder-only —— Next Token Prediction)
h 0 = U W e + W p ( 2 ) h l = transformer block ( h l − 1 ) ∀ i ∈ [ 1 , n ] ( 3 ) P ( u ) = s o f t m a x ( h n W e T ) ( 4 ) \begin{aligned} h_{0} & =UW_e+W_p &\qquad \qquad (2)\\ h_{l} & =\text{transformer block}(h_{l-1})\forall i\in[1,n] &\qquad \qquad (3)\\ P(u) & =\mathrm{softmax}(h_nW_e^T) &\qquad \qquad (4) \end{aligned} h0hlP(u)=UWe+Wp=transformer block(hl1)i[1,n]=softmax(hnWeT)<

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值