GPT原理介绍

最新推荐文章于 2025-06-24 18:42:01 发布

林ch

最新推荐文章于 2025-06-24 18:42:01 发布

阅读量2.2w

点赞数 5

CC 4.0 BY-SA版权

分类专栏：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linchuhai/article/details/97274228

1.引言

前面我们介绍了ELMo算法的思想，通过在大量的语料上预训练语言模型，然后再将预训练好的模型迁移到具体的下游NLP任务，从而提高模型的能力。但是ELMo预训练的语言模型结构和下游的NLP任务的模型经常会不一致，因此，做迁移学习时经常没法将两者的模型直接进行融合，因此，本文将介绍OpenAI在2018年提出来的一个方法——GPT，该模型在预训练语言模型的基础上，只需要做一些微改即可直接迁移到各种NLP任务中，因此，其迁移能力更强。

论文地址：《Improving Language Understanding by Generative Pre-Training》

2.GPT原理介绍

GPT模型主要包含两个阶段，第一个阶段，先利用大量未标注的语料预训练一个语言模型，接着，在第二个阶段对预训练好的语言模型进行微改，将其迁移到各种有监督的NLP任务，并对参数进行fine-tuning。

2.1 预训练模型（无监督）

给定一个没有标注的大语料，记每一个序列为 $\mathcal{U}=\left\{u_{1}, \dots, u_{n}\right\}$ ，GPT通过最大化以下似然函数来训练语言模型：
$L_{1}(\mathcal{U})=\sum_{i} \log P\left(u_{i} | u_{i-k}, \ldots, u_{i-1} ; \Theta\right)$
其中， $k$ 表示上下文窗口的大小，这里计算每个

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。