GPT模型：Improving Language Understanding by Generative Pre-Training

置顶

菜小白—NLP

于 2019-03-29 18:24:20 发布

阅读量4k

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/ACM_hades/article/details/88899307

GPT模型通过无监督预训练和有监督微调提高语言理解能力。首先，在大规模文本数据上训练语言模型，然后在特定任务的有标签数据集上进行微调。预训练阶段采用多层Transformer解码器结构，去除Encoder-Decoder Attention层，以预测上下文中的下一个词。微调阶段，将预训练模型应用于特殊任务，通过添加线性映射层以适应任务需求，同时结合语言模型损失和任务损失进行优化，提升模型泛化性和收敛速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考链接

https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf
https://github.com/openai/finetune-transformer-lm

论文模型概述

论文模型训练过程包括两步：
- 第一步: 在大预料库训练高容量的语言模型；
- 第二步: 要特殊任务的有标签的数据集上微调预训练的语言模型

第一步：无监督预训练

使用语言模型最大化下面的式子 $L_1 (U)=∑_ilogP(u_i |u_{i-k},…,u_{i-1};θ)$ 其中 $k$ 是上下文窗口大小， $θ$ 是语言模型参数，我们使用一个神经网络来模拟条件概率 $P$
在论文中，使用一个多层的transformer decoder来作为语言模型，这是transformer的一个变体。将transformer decoder中Encoder-Decoder Attention层去掉作为模型的主体，然后将decoder的输出经过一个softmax层，，来产生目标词的输出分布： $h_0=UW_e+W_p$

最低0.47元/天解锁文章

菜小白—NLP

博客等级

码龄8年

135
原创

264
点赞

829
收藏

79
粉丝

关注

私信

热门文章

分类专栏

RL
NLP 40篇
ACM 22篇
Python 17篇
Tensorflow 18篇
ML 17篇
Pytorch 2篇

展开全部收起

上一篇：: Transformer：Attention Is All You Need

下一篇：: Semi-Supervised Sequence Modeling with Cross-View Training

最新评论

【机器学习】密度聚类算法之HDBSCAN
小吕布鑫爱貂蝉: 和官方网站的不太一样，聚类簇那儿是减lamba(birth)而不是lamba(death)，不然最后的簇无法计算稳定性
【机器学习】密度聚类算法之HDBSCAN
小吕布鑫爱貂蝉: 同样的，卡在这一步上了
优先队列
Linzy️: data[]似乎也可以不用，用cin>>Heap[i]存入就行，降低空间复杂度
优先队列
Wind_Qiu: pop函数有两个地方有错，第30行，int result = Heap[1];你的堆是从下标1开始的，不是从下标0开始的。第31行，int x = Heap[Heap_size--]; 先是记录最后一个元素，size再减减，先减减的话记录的是倒数第二个元素，这样会造成倒数第一个元素丢失的。
支持向量机(SVM)——python代码实现
qq_63937295: 你好，你解决这个问题了吗，我也想知道怎么改

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。