【深度学习】Transformer技术报告:架构与原理

一、引言

Transformer 是一种基于注意力机制(Attention Mechanism)的深度学习架构,最初由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,成为许多语言模型和任务的核心架构。Transformer 的设计理念是摒弃传统的循环神经网络(RNN)及其变体(如 LSTM 和 GRU),转而通过并行计算和注意力机制高效处理序列数据。

二、Transformer 的基本架构

2.1 总体架构

Transformer 采用编码器 - 解码器(Encoder-Decoder)架构,主要用于处理序列到序列的任务,如机器翻译、文本生成等。编码器负责将输入序列编码为上下文表示,解码器则基于这些上下文信息生成输出序列。整个架构由以下部分组成:

编码器(Encoder):由多个相同的层(通常为 6 层)堆叠而成,每层包含两个子层。

解码器(Decoder):同样由多个相同的层堆叠而成,每层包含三个子层。

输入嵌入与位置编码:为输入序列提供初始表示,并保留序列的顺序信息。

输出层:将解码器的输出转换为目标序列。

2.2 编码器(Encoder)

编码器由多个相同的层组成,每层包含两个子层:

多头自注意力层(Multi-Head Self-Attention Layer)

作用:允许模型在处理输入序列时,同时关注序列中的所有位置,捕捉词与词之间的关系。

机制:将输入序列分割成多个 “头”(Head),每个头独立计算注意力权重,然后将所有头的输出拼接起来。这种设计能够捕捉到输入序列中不同子空间的特征。

公式

Attention ( Q , K , V ) = softmax ( Q K T d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QKT)V

其中,Q、K、V 分别代表查询(Query)、键(Key)和值(Value), d k d_k dk是键向量的维度。

多头注意力:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识靠谱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值