Transformer动画讲解 - 工作原理

一、GPT的核心是Transformer

GPT:GPT(Generative Pre-trained Transformer)是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督学习来捕捉语言的统计规律,从而具备强大的文本生成能力。
在这里插入图片描述
在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含义:

  • G (Generative):“Generative”意味着这个模型是生成式的。与判别式模型不同,生成式模型试图捕捉数据的分布,并能够生成新的、看似真实的数据样本。

  • P (Pre-trained):“Pre-trained”表示GPT模型在大量的无监督文本数据上进行了预训练,使模型学习到文本中的语言结构和语义信息。

  • T (Transformer):“Transformer”是GPT模型的核心架构。Transformer是一种基于自注意力机制的神经网络架构,包括编码器和解码器两部分。

在这里插入图片描述

Transformer模型在多模态数据处理中同样扮演着重要角色,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。
在这里插入图片描述

二、Transformer的工作原理

Transformer工作原理四部曲:Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。
在这里插入图片描述

阶段一:Embedding(向量化)

“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术。

(1)Tokenization(词元化):

  • 对于文本数据:在自然语言处理(NLP)中,将输入的文本内容(如句子、段落或整个文档)拆分成更小的片段或元素,这些片段通常被称为词元(tokens)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值