Transformer数据流详解：从输入到输出的矩阵之旅

最新推荐文章于 2025-11-23 23:21:16 发布

原创

最新推荐文章于 2025-11-23 23:21:16 发布 · 428 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #矩阵 #深度学习

本文通过一个简化示例，逐层解析Transformer架构中的数据流动，揭示神经网络如何处理文本信息。所有数值均为示例，维度大幅简化（实际模型通常使用512+维度）。

一、架构全景图

Transformer核心处理流程如下（以编码器为例）：

输入文本 → 词嵌入 → 位置编码 → [自注意力 → 残差+层归一 → FFNN → 残差+层归一]×N → 输出

二、输入预处理（维度：标量 → 4维向量）

Token转ID

# 词表映射
词表 = {
   
   "你":0, "好":1, "吗":2}
输入 = "好" → ID = 1

词嵌入

# 嵌入矩阵 (词表大小3×嵌入维度4)
嵌入矩阵 = [
  [0.1, 0.2, 0.3, 0.4],  # 你
  [0.5, 0.6, 0.7, 0.8],  # 好  ← 选择此行
  [0.9, 1.0, 1.1, 1.2]   # 吗
]

输出向量 = [0.5, 0.6, 0.7, 0.8]

位置编码

# 位置0的编码
位置编码 = [0.1, 0.1, 0.1, 0.1]  

最终输入 = 嵌入向量 + 位置编码 = [0.6, 0.7, 0.8, 0.9]

数据变化：标量 → 4维语义空间向量（含位置信息）

三、自注意力层（核心信息提取）

生成Q/K/V向量

# 查询矩阵 (4×3)
W_Q = [
    [0.1, 0.2, 0.3],
    [0.4, 0.5, 0.6],
    [0.7, 0.8, 0.9],
    [1.0, 1.1, 1.2]
]

Q = 输入向量 · W_Q = [0.6*0.1 + 0.7

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

白酒永远的神

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python从0到100（一百）：基于Transformer的时序数据建模与实现详解

全网粉丝10w+，优快云、稀土掘金人工智能签约作者、专家博主，华为云十佳博主，985人工智能硕士。人工智能、大模型、计算机视觉、Python 爬虫— —商务合作：https://bbs.youkuaiyun.com/topics/614347534

06-23

4万+

Transformer for Time Series (TTS-Transformer) 是一种基于自注意力机制的深度神经网络架构，专门针对时序数据处理进行优化设计。它通过多头自注意力机制捕获时序数据中的长距离依赖关系，同时结合位置编码和层归一化等技术，在保持计算效率的同时显著提升了模型对复杂时序模式的建模能力和预测精度。

Transformer内部数据流动：从输入到输出的维度变换，超详细!!!

AggressiveYu的博客

07-24

897

我们假设一个极简的翻译任务，并设定一套小巧的参数，方便观察。2123100。

参与评论您还未登录，请先登录后发表或查看评论

这样图解Transformer应该没人看不懂了吧——Transformer工作原理

bugyinyin的博客

08-28

6220

与任何自然语言处理（NLP）模型一样，Transformer需要了解每个单词的两方面信息——单词的含义及其在序列中的位置。嵌入层：负责编码单词的含义。位置编码层：负责表示单词在序列中的位置。 Transformer通过将这两个编码相加来结合这两方面的信息。

TR3 - Transformer算法详解

Loser

04-05

1032

本周在理论上学习了Transformer模型的结构、组成、训练过程。让我印象最深刻的就是Seq2Seq模型不仅有一个输入头，它的编码器是和CV模型共通的，但是编码器也有输入，并且先每个时间步只输出一个单词，这点和RNN一样并没有什么变化。这也制约了NLP任务的训练和推理。另外我没想到它的损失函数竟然和最基础的分类网络一样，用简单的交叉熵损失就可以。

Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT

结构之法算法之道

10-23

13万+

我在写上一篇博客《》时，有读者在文章下面评论道：“july大神，请问BERT的通俗理解还做吗？”，我当时给他发了张俊林老师的BERT文章，所以没太在意。直到今天早上，刷到优快云上一篇讲BERT的文章，号称一文读懂，我读下来之后，假定我是初学者，读不懂。（这是），再比如国内张俊林老师的这篇《》，然后你会发现几乎网上关于Transformer/BERT的文章无外乎是以下这几种情况。

一文通透mamba2「力证Transformer are SSM」：从SSM、半可分矩阵、SMA、SSD到mamba2

结构之法算法之道

07-03

3万+

实话说，过去一两月一直忙着我司两大类项目的推进所以虽然说mamba2已发布一月有余，但实在是没有一块完整的时间来对其做详尽而细致的解读，而最终促使我来写的最大的动力还是来源于我半年前对mamba1的解读实在是太受欢迎了且影响力巨大然，在我下定决心写本文之前，内心还是有过一阵小纠结的不过还是因为过去十多年写博客的经验，使得自己在面对再难啃的算法都有足够的自信与底气，坚信都可以一步步拆解、一步步抽丝剥茧并清晰易懂的写出来，故本文最终还是来了。

Transformer大模型架构详解：从小白到精通的必学指南

2401_85116933的博客

09-11

1017

解码器栈的输出是一个 float 向量。我们怎么把这个向量转换为一个词呢？通过一个线性层再加上一个 Softmax 层实现。线性层是一个简单的全连接神经网络，其将解码器栈的输出向量映射到一个更长的向量，这个向量被称为 logits 向量。现在假设我们的模型有 10000 个英文单词（模型的输出词汇表）。因此 logits 向量有 10000 个数字，每个数表示一个单词的分数。然后，Softmax 层会把这些分数转换为概率（把所有的分数转换为正数，并且加起来等于 1）。

Transformer 模型详解

最新发布

小黄人的博客

11-23

矩阵：数字表格。代数余子式矩阵：每个元素替换成其代数余子式后的矩阵。伴随矩阵：代数余子式矩阵的转置。

【AI】矩阵乘为什么是加权求和？

u011808788的博客

11-20

984

假设我们已经计算好了2x2的注意力权重矩阵 A 和 2x3 的值矩阵 V。（我们用小一点的矩阵，这样方便手算）。注意力权重矩阵 A (Attention Weights) ，维度是 2x2。值矩阵 V (Value) ，维度是 2x3。现在我们要计算输出矩阵 Z = A * V。

华为OD机试真题精讲：矩阵中非1的数量（Python/Java/C++多语言实现）

weixin_50859396的博客

11-20

华为OD机试真题：矩阵中非1元素统计题目描述给定一个M×N整数矩阵，统计值不等于1的元素数量。若矩阵为空（M或N为0），直接返回0。核心思路输入处理：一次性读取所有输入数据，自动处理跨行元素。边界判断：检查空矩阵情况（M=0或N=0）。遍历统计：直接判断每个元素是否≠1，无需存储完整矩阵。多语言实现 Python：sys.stdin.read()批量读取输入，空间优化至O(1)。 Java：BufferedReader处理大数据量输入，类型安全。 C++：关闭IO同步加速输入，内存占用最小。

矩阵论多项式矩阵及其史密斯smith标准型

weixin_61426225的博客

11-22

765

本文介绍了多项式矩阵及其史密斯标准型。多项式矩阵是元素为λ多项式的矩阵，其秩定义与数字矩阵类似。多项式矩阵可逆的充要条件是行列式为非零常数。通过初等变换可将多项式矩阵化为史密斯标准型，即满足对角化、整除性和首一性的对角矩阵。文中通过具体示例展示了如何将多项式矩阵转换为史密斯标准型的过程。

Transformer-KAN 数据流

03-22

### Transformer-KAN 数据流实现详解 Transformer-KAN 是一种结合了知识图谱（Knowledge Graph, KG）和注意力机制（Attention Mechanism）的架构，旨在通过增强语义表示来提升自然语言处理任务的效果。以下是关于其数据流实现的具体解析。 #### 1. 输入编码阶段在输入阶段，原始文本被转化为词嵌入向量，并与位置编码相结合以保留顺序信息[^4]。随后，这些嵌入向量会被送入一个多头自注意力模块中进行初步特征提取。这一过程可以形式化描述如下： ```python import torch.nn as nn class InputEmbedding(nn.Module): def __init__(self, vocab_size, d_model, max_len=512): super(InputEmbedding, self).__init__() self.token_embedding = nn.Embedding(vocab_size, d_model) self.positional_encoding = PositionalEncoding(d_model, max_len) def forward(self, tokens): token_embeds = self.token_embedding(tokens) pos_encodings = self.positional_encoding(token_embeds.size(1)) return token_embeds + pos_encodings ``` 上述代码展示了如何构建一个简单的输入嵌入层，其中 `PositionalEncoding` 负责生成位置编码矩阵[^4]。 --- #### 2. 多模态融合阶段 Transformer-KAN 的核心在于引入外部知识库的信息作为补充信号。为此，在传统 Transformer 结构的基础上增加了一个 Knowledge Attention Network (KAN)，用于捕捉实体间的关系以及上下文中隐含的知识点[^5]。具体来说，该部分主要由以下几个子组件构成： - **Entity Linking**: 将输入中的词语映射到对应的知识图谱节点； - **Relation Extraction**: 提取关联关系并将其转换为可训练的形式； - **Fusion Layer**: 使用加权求和的方式将来自两个源的数据结合起来。下面是一个简化版的 FusionLayer 定义示例： ```python class FusionLayer(nn.Module): def __init__(self, input_dim, output_dim): super(FusionLayer, self).__init__() self.linear = nn.Linear(input_dim * 2, output_dim) def forward(self, text_features, kg_features): combined = torch.cat([text_features, kg_features], dim=-1) fused_output = self.linear(combined) return fused_output ``` 这里假设已经得到了分别代表文本内容 (`text_features`) 和知识图谱贡献 (`kg_features`) 的张量，则可以通过线性变换完成最终表征的学习[^5]。 --- #### 3. 输出解码阶段经过前面两步操作之后得到的是高层次抽象后的隐藏状态序列 {h₁,... ,hn} ，它们可以直接传递给分类器或者回归分析工具做下游应用；也可以再次经历若干次前馈神经网络迭代优化直至收敛为止[^6]。对于某些特定场景比如机器翻译项目里还需要额外设置专门负责目标端初始化工作的 decoder 部件才行哦！ --- ### 总结综上所述，Transformer-KAN 不仅继承了经典 Transformer 架构高效捕获长期依赖性的优点，还巧妙融入了领域专业知识辅助建模工作，使得整体性能得以显著改善[^7]。