【Attention Is All You Need】Transformer详解

Transformer模型详解:Attention机制的核心
Transformer由Google团队于2018年提出,摒弃了传统的CNN和RNN,完全基于Attention机制。网络主要由self-Attention和Feed Forward Neural Network构成,通过Encoder和Decoder的多层堆叠实现序列处理。self-Attention通过Query、Key和Value向量计算注意力权重,解决了RNN的并行性和长期依赖问题。同时,位置编码用于捕捉序列顺序信息。

年代:2018年

团队:Google

1. 前言:

  • Transformer中抛弃了传统的CNN和RNN,整个网络结构完全是由Attention机制组成,更准确地讲,Transformer由且仅由self-AttenionFeed Forward Neural Network组成。
  • 一个基于Transformer的可训练的神经网络可以通过堆叠Transformer的形式进行搭建,作者的实验是通过搭建编码器和解码器各6层,总共12层的Encoder-Decoder

2. activation:

对于RNN计算智能从左向右依次计算,这种机制带来了两个问题:

  • t时刻的计算依赖于t-1时刻,这样先知了模型的并行能力
  • 顺序计算过程中信息会丢失,尽管LSTM等门结构可以一定程度上缓解了长期依赖的问题,但是对于特别长期的依赖现象,lstm依旧无能为力

3. Transformer 结构

Self-Attention:核心内容是为输入向量的每个单词学习一个权重,例如在下面的例子中我们判断it代指的内容

The animal didn't cross the street because it was too tired

通过加权之后可以得到类似图8的加权情况

preview

在Self-attention中,每个单词有三个不同的向量,他们分别是Query向量(Q),Key向量(K),Value向量(V),shape均为[64, 1],它们都是由3个不同的权值矩阵由嵌入向量X乘以3个不同的权值矩阵

### 详解 'Attention is All You Need' 论文的 Introduction 部分 #### 背景与动机 在传统序列建模和转换任务中,基于循环神经网络(RNN)、长短期记忆网络(LSTM)以及门控循环单元(GRU)的方法占据主导地位。然而这些方法存在梯度消失等问题,在处理非常长的序列时效果不佳。卷积神经网络(CNN)虽然能在一定程度上缓解此问题,但在捕捉远距离依赖方面仍不如人意[^1]。 为了克服上述挑战,《Attention Is All You Need》引入了一种全新的模型——Transformer。该模型完全抛弃了以往使用的循环结构和卷积层设计思路,转而采用纯注意力机制来构建端到端可训练框架。这一创新性尝试旨在解决现有技术难以有效处理长时间跨度数据流的问题,并期望能够在更广泛的NLP应用场景下取得更好的表现。 #### 自注意力机制的重要性 论文指出,自注意力机制允许模型并行计算所有位置之间的关联权重,从而极大地提高了效率;同时由于可以动态调整不同词之间的影响程度,因此对于理解复杂语境下的含义特别有帮助。此外,通过引入多头注意力机制,使单个模型具备从多个角度审视输入的能力,进而提升了整体性能。 #### 实验验证 实验结果显示,所提出的 Transformer 架构不仅大幅超越了当时最先进的机器翻译系统,在 WMT 2014 英德双向测试集上分别达到了 28.4 和 26.3 的 BLEU 分数,而且还在其他多种 NLP 任务中表现出色,证明了其强大的泛化能力和广泛适用性[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值