本文通过一个简化示例,逐层解析Transformer架构中的数据流动,揭示神经网络如何处理文本信息。所有数值均为示例,维度大幅简化(实际模型通常使用512+维度)。
一、架构全景图
Transformer核心处理流程如下(以编码器为例):
输入文本 → 词嵌入 → 位置编码 → [自注意力 → 残差+层归一 → FFNN → 残差+层归一]×N → 输出
二、输入预处理(维度:标量 → 4维向量)
- Token转ID
# 词表映射
词表 = {
"你":0, "好":1, "吗":2}
输入 = "好" → ID = 1
- 词嵌入
# 嵌入矩阵 (词表大小3×嵌入维度4)
嵌入矩阵 = [
[0.1, 0.2, 0.3, 0.4], # 你
[0.5, 0.6, 0.7, 0.8], # 好 ← 选择此行
[0.9, 1.0, 1.1, 1.2] # 吗
]
输出向量 = [0.5, 0.6, 0.7, 0.8]
- 位置编码
# 位置0的编码
位置编码 = [0.1, 0.1, 0.1, 0.1]
最终输入 = 嵌入向量 + 位置编码 = [0.6, 0.7, 0.8, 0.9]
数据变化:标量 → 4维语义空间向量(含位置信息)
三、自注意力层(核心信息提取)
- 生成Q/K/V向量
# 查询矩阵 (4×3)
W_Q = [
[0.1, 0.2, 0.3],
[0.4, 0.5, 0.6],
[0.7, 0.8, 0.9],
[1.0, 1.1, 1.2]
]
Q = 输入向量 · W_Q = [0.6*0.1 + 0.7

最低0.47元/天 解锁文章
4万+

被折叠的 条评论
为什么被折叠?



