一文搞懂 Transformer 模型执行过程(附详解)

Transformer 是近年来自然语言处理(NLP)中最核心的架构之一,BERT、GPT、ChatGPT 等模型的基础都来源于它。本文将用通俗易懂的方式,从输入到输出,详细梳理 Transformer 的整个执行过程。

首先,在拿到数据后要对数据进行处理,转换成机器能够读懂的形式,所以数据先进入嵌入层,进行数据预处理。

一、嵌入层(Embedding)

1. 分词(Tokenization)

以句子 "The boy is handsome" 为例:

分词后 → ["The", "boy", "is", "hand","some"]

将字符串拆成语言单位(词、子词、字等),是文本进入模型前的第一步。

2. Token 化

将分词后的文本转换为 Token ID(离散整数),Token ID 是模型词表中为每个 Token 分配的整数编码,类似将文字映射为计算机可处理的编码,是一一对应的:

比如可能在某个模型的词表里,上个例句所拆分的token就对应如下Token ID:

"The" → 103  "boy" → 2021  "is" → 87  "hand" → 3511   "some" → 501

值得注意的是:

  • 一个词可能被拆成多个 token,如 handsome → ["hand", "some"] → [3511, 501]

  • 不同 tokenizer 分词器对 handsome 拆分行为可能不同。BPE 可能是 [hand, some],而 GPT 很可能不拆。

3. 向量查表(词嵌入)

词表是Token字典,是用来储存Token和Token ID映射关系的表格,这个词表也叫词嵌入矩阵。

如果词表里有 50,000 个 token,向量维度是 512,那么这个矩阵的形状就是:

[词表大小 × 向量维度]

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值