【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理

最新推荐文章于 2025-02-20 15:26:37 发布

原创

最新推荐文章于 2025-02-20 15:26:37 发布

· 691 阅读

9 ·

版权

文章标签：

#语言模型 #gpt #人工智能 #深度学习 #机器学习 #ai

前言

ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。

OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固定的，通过任务 fine-tuning,用transfomer代替ELMo的LSTM。

OpenAI GPT其实就是缺少了encoder的transformer：当然也没了encoder与decoder之间的attention。

OpenAI GPT虽然可以进行fine-tuning,但是有些特殊任务与pre-training输入有出入，单个句子与两个句子不一致的情况，很难解决，还有就是decoder只能看到前面的信息。

GPT适用于生成任务（自回归语言模型，任务更难但潜力更大）， BERT适合判别。

GPT1大概1亿参数，BERT-base类似， BERT-large大概3.4亿

类似GPT2大概13亿参数

True LM （预训练没有句子级别任务）

有监督微调时：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI大模型探索者

关注关注

20
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

GPT-GNN：图神经网络的生成式预训练 KDD 2020

u013602059的专栏

08-27

1131

论文链接：https://arxiv.org/pdf/2006.15437.pdf 代码链接：https://github.com/acbull/GPT-GNN 论文来源：KDD 2020 参考文档：https://blog.youkuaiyun.com/c9yv2cf9i06k2a9e/article/details/108231322 1、简介本文研究如何利用图生成作为自监督任务来预训练 GNN。我们将图的生成概率分解成两个模块：1）节点特征生成；2）图结构生成。通过对这两个模块建模，GPT-GNN 可以捕捉图.

大语言模型-GPT-Generative Pre-Training

weixin_42045968的博客

07-23

915

GPT是2018 年 6 月由OpenAI 提出的预训练语言模型。 GPT可以应用于复杂的NLP任务中，例如文章生成，代码生成，机器翻译，问答对话等。 GPT也采用两阶段的训练过程，第一阶段是无监督的方式来预训练生成式的语言模型，第二阶段根据特定任务进行微调。 GPT的网络架构使用的是多层Transformer Decoder改的结构。

参与评论您还未登录，请先登录后发表或查看评论

GPT模型: Generative Pre-training 生成式无监督预训练

SHIDA优快云的博客

04-15

567

GPT，GPT-2，GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。 OpenAI GPT: 通过transformer decoder学习出来一个语言模型，不是固定的，通过任务 fine-tuning,用transfomer代替ELMo的LSTM。 OpenA...

【LLM系列之GPT】GPT（Generative Pre-trained Transformer）生成式预训练模型

yanqianglifei的专栏

05-18

4154

GPT（Generative Pre-trained Transformer）是由OpenAI公司开发的一系列自然语言处理模型，采用多层Transformer结构来预测下一个单词的概率分布，通过在大型文本语料库中学习到的语言模式来生成自然语言文本。

GPT系列：生成式预训练与零样本学习

weixin_44966641的博客

10-22

7358

GPT系列：生成式预训练与零样本学习

Generative Pre-training

gg13213的博客

10-11

1457

GPTGPTGPT网络结构 GPT GPT使用的是transformer的decoder端，将其进行修改用于预训练模型。 decoder部分整体是一个类似RNN的循环网络结构，模型在时间步i只能看到i之前的时间步及其输出情况，而不知道i时间步之后的输出情况。在训练阶段GPT利用mask机制将i之后的输出屏蔽掉。即GPT是一种单向模型。 GPT网络结构 ...

大语言模型-GPT2-Generative Pre-Training2

weixin_42045968的博客

07-24

1330

GPT2是2019年由OpenAI 提出的预训练语言模型。 GPT2提出语言模型式`无监督的多任务学习` 。旨在通过无监督学习也能达到和finetune一样的效果，并且拥有更强的泛化能能力。即提出利用语言模型做下游任务时，不需要下游任务的任何标注信息（zero-shot设定），也不用训练模型。只需要训练一个模型，在多个任务上都能用。

GPT|《Improving language understanding by generative pre-training 》论文阅读笔记

Lys6142021的博客

06-16

960

GPT通过在各种未标注文本语料库上对语言模型进行，然后在每个特定任务上进行，可以在使用大量数据集进行训练下，迁移到大多数NLP任务之上。GPT是基于Transformer模型建立起来的，因为相比于LSTM其具有更好的并行存储计算能力，并能记忆更长的上下文相关信息，并采用纯解码器的结构构造。

GPT1解读：Improving Language Understanding by Generative Pre-Training

tostq的专栏

05-19

922

自然语言处理NLP是当代人工智能的关键领域，包含文本识别、智能问答等多个方向任务，通过监督学习方式一般需要大量带标签数据，而对某些特定任务，获取带标签数据成本非常高。GPT通过大量的未标记文本数据来学习一个通用预训练（generative pre-training）的语言模型，并通过语言模型可以学习到内在语义信息，之后针对特定任务只需要用少量的标签数据进行fine-tuning，而不需要对模型结构进行较大改变。

GPT (Generative Pre-trained Transformer)

最新发布

彬彬侠的博客

02-20

1193

GPT(Generative Pre-trained Transformer)是由OpenAI提出的一个基于Transformer架构的自回归语言模型。GPT模型通过大规模无监督预训练，使用大量的文本数据进行学习，然后再进行微调（fine-tuning）来适应具体的下游任务。GPT的设计目标是能够理解和生成自然语言文本，并且它以其出色的自然语言生成能力在多个领域取得了显著的成果。GPT采用了Transformer模型中的自注意力机制（Self-attention）来建模文本序列中的长程依赖关系。它与传统的R

GPT模型（Generative Pre-Training）

胭脂草的ABC博客

02-14

2334

2018年发掘的自回归模型，采用预训练和下游微调方式处理NLP任务；解决动态语义问题，word embedding 送入单向transformer中。

GhatGPT Chat Generative Pre-trained Transformer

JasonH2021的博客

07-16

877

本文简单介绍了ChatGPT的概念，基本原理算法，主要应用和一些问题挑战等。

举例说明ChatGPT模型是怎么进行无监督学习的

技术原始积累

07-05

1753

ChatGPT，也称为生成式预训练Transformer（GPT），是一种基于Transformer架构的自然语言处理模型。虽然在实际应用中，它主要用于有监督学习任务，但在训练初期，它会经历无监督学习阶段。以下是一个简化的例子，说明了ChatGPT是如何进行无监督学习的：1. 预训练阶段：首先，在大规模的文本数据集（例如互联网上收集的文本）上进行预训练。这些数据没有标签，因此这个阶段属于无监督学习...

6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择

DataLearnerAI

12-29

3026

本文原文来自DataLearnerAI官方网站：6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择 | 数据学习者官方网站(Datalearner)Sebastian Raschka是LightningAI的首席科学家，也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的见解，也贡献了许多有价值的内容。在最新的一期推文中，他总结了6种大模型的使用方法，引起了广泛的讨论。

预训练模型：GPT

xunyishuai5020的博客

03-31

2864

GPT 是 OpenAI 在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想是通过二段式的训练，以通用语言模型加微调训练的模型完成各项下游NLP任务，包括文本生成、二分类、蕴含、相似度、多分类等。 1. 预训练任务 GPT模型采用标准的语言模型训练方法，即给定上文令模型预测下一单词，模型的目标函数为： Li=∑t∈TlogP(ut∣ut−k,⋯ ,ut−1;θ) L_i = \sum_

神经网络算法：一文搞懂GPT（Generative Pre-trained Transformer）

2401_84033492的博客

04-02

5985

GPT策略：直接微调模型。在模型的输出层添加一个线性层，将GPT的输出转换为对应类别的概率分布。

深入理解深度学习——GPT（Generative Pre-Trained Transformer）：基础知识