【深度学习】Transformer技术报告：架构与原理

知识靠谱

已于 2025-02-19 23:45:02 修改

阅读量988

点赞数 28

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： transformer 深度学习人工智能

于 2025-02-18 23:49:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chenghao1012/article/details/145717354

【深度学习】Transformer 技术报告：架构与原理

一、引言

Transformer 是一种基于注意力机制（Attention Mechanism）的深度学习架构，最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理（NLP）领域，成为许多语言模型和任务的核心架构。Transformer 的设计理念是摒弃传统的循环神经网络（RNN）及其变体（如 LSTM 和 GRU），转而通过并行计算和注意力机制高效处理序列数据。

二、Transformer 的基本架构

2.1 总体架构

Transformer 采用编码器 - 解码器（Encoder-Decoder）架构，主要用于处理序列到序列的任务，如机器翻译、文本生成等。编码器负责将输入序列编码为上下文表示，解码器则基于这些上下文信息生成输出序列。整个架构由以下部分组成：

编码器（Encoder）：由多个相同的层（通常为 6 层）堆叠而成，每层包含两个子层。

解码器（Decoder）：同样由多个相同的层堆叠而成，每层包含三个子层。

输入嵌入与位置编码：为输入序列提供初始表示，并保留序列的顺序信息。

输出层：将解码器的输出转换为目标序列。

2.2 编码器（Encoder）

编码器由多个相同的层组成，每层包含两个子层：

多头自注意力层（Multi-Head Self-Attention Layer）

作用：允许模型在处理输入序列时，同时关注序列中的所有位置，捕捉词与词之间的关系。

机制：将输入序列分割成多个 “头”（Head），每个头独立计算注意力权重，然后将所有头的输出拼接起来。这种设计能够捕捉到输入序列中不同子空间的特征。

公式：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中，Q、K、V 分别代表查询（Query）、键（Key）和值（Value）， $d_k$ 是键向量的维度。

多头注意力：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知识靠谱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。