深入理解 Transformer：原理、架构与注意力机制全景图解

原创

已于 2025-04-20 12:41:06 修改 · 2.9k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-04-20 10:39:42 首次发布

自从 Google 于 2017 年提出 Transformer，它已成为 NLP 和生成式 AI 模型的主流架构，彻底颠覆了传统 RNN、CNN 结构的局限。Transformer 最大的创新点在于：完全基于注意力机制，无需循环与卷积，实现高效的并行训练和全局信息捕获。

本文将围绕四个维度全面拆解 Transformer：

Transformer 最核心的思想是 Attention is All You Need —— 注意力即一切。它使用注意力机制直接在输入序列的所有位置之间建立连接，从而有效建模长距离依赖。

类型	使用位置	Query 来源	Key/Value 来源	是否 Mask	用途说明
自注意力（Self-Attention）	编码器	当前 token	当前 token	❌ 否	提取当前输入与上下文的关系
多头注意力（Multi-Head Attention）	解码器	当前 token	当前 token	✅ 是	防止看到未来 token，保证生成顺序性
编码器-解码器注意力（融合注意力）	解码器	decoder token	encoder 输出	❌ 否	解码器融合编码器上下文信息