一、GPT的核心是Transformer
GPT:GPT(Generative Pre-trained Transformer)是一种基于单向Transformer解码器的预训练语言模型,它通过在大规模语料库上的无监督学习来捕捉语言的统计规律,从而具备强大的文本生成能力。
在GPT(Generative Pre-trained Transformer)模型中,字母G、P、T各自有其特定的含义:
-
G (Generative):“Generative”意味着这个模型是生成式的。与判别式模型不同,生成式模型试图捕捉数据的分布,并能够生成新的、看似真实的数据样本。
-
P (Pre-trained):“Pre-trained”表示GPT模型在大量的无监督文本数据上进行了预训练,使模型学习到文本中的语言结构和语义信息。
-
T (Transformer):“Transformer”是GPT模型的核心架构。Transformer是一种基于自注意力机制的神经网络架构,包括编码器和解码器两部分。
Transformer模型在多模态数据处理中同样扮演着重要角色,其能够高效、准确地处理包含不同类型(如图像、文本、音频、视频等)的多模态数据。
二、Transformer的工作原理
Transformer工作原理四部曲:Embedding(向量化)、Attention(注意力机制)、MLPs(多层感知机)和Unembedding(模型输出)。
阶段一:Embedding(向量化)
“Embedding”在字面上的翻译是“嵌入”,但在机器学习和自然语言处理的上下文中,我们更倾向于将其理解为一种“向量化”或“向量表示”的技术。
(1)Tokenization(词元化):
-
对于文本数据:在自然语言处理(NLP)中,将输入的文本内容(如句子、段落或整个文档)拆分成更小的片段或元素,这些片段通常被称为词元(tokens)。