GPT模型:Improving Language Understanding by Generative Pre-Training

GPT模型通过无监督预训练和有监督微调提高语言理解能力。首先,在大规模文本数据上训练语言模型,然后在特定任务的有标签数据集上进行微调。预训练阶段采用多层Transformer解码器结构,去除Encoder-Decoder Attention层,以预测上下文中的下一个词。微调阶段,将预训练模型应用于特殊任务,通过添加线性映射层以适应任务需求,同时结合语言模型损失和任务损失进行优化,提升模型泛化性和收敛速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考链接

https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
https://github.com/openai/finetune-transformer-lm

论文模型概述

  • 论文模型训练过程包括两步:
    • 第一步: 在大预料库训练高容量的语言模型;
    • 第二步: 要特殊任务的有标签的数据集上微调预训练的语言模型

第一步:无监督预训练

  • 使用语言模型最大化下面的式子 L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1 (U)=∑_ilogP(u_i |u_{i-k},…,u_{i-1};θ) L1(U)=ilogP(uiuik,,ui1;θ)其中 k k k是上下文窗口大小, θ θ θ是语言模型参数,我们使用一个神经网络来模拟条件概率 P P P
  • 在论文中,使用一个多层的transformer decoder来作为语言模型,这是transformer的一个变体。将transformer decoder中Encoder-Decoder Attention层去掉作为模型的主体,然后将decoder的输出经过一个softmax层,,来产生目标词的输出分布: h 0 = U W e + W p h_0=UW_e+W_p h0=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值