学习笔记|Transformer——实现“序列to序列”的转换

本文深入探讨Transformer网络结构,包括Encoder的自注意力机制和残差连接,以及Decoder的自回归工作原理和Cross-Attention层。Transformer在序列到序列任务中发挥关键作用,其Encoder通过多头自注意力捕获输入序列全局信息,Decoder利用Encoder输出和自回归机制生成目标序列。

1. Transformer 概述

在机器学习中,我们有很多任务都是 “序列to序列” 的形式,比如语音识别、机器翻译、文本标注等等。而且在这些任务中,输入序列和输出序列的长度都是不定的,如么如何实现这种序列的转换呢?这就要用到一个很常见的网络架构— transformer 。transformer的一般结构如下图所示,包括编码(Encoder)和解码(Decoder)两个部分。Encoder对输入序列进行编码输出一个序列,转交给Decoder,Decoder对这个序列进行解码,输出我们需要的序列。
tansformer一般结构

2. Transformer的Encoder

首先,我们来看一下transformer的Encoder架构是怎样的。transformer对输入序列进行编码生成另一个长度相等的序列,如下图所示,这里假设输入序列是向量 x 1 、 x 2 、 x 3 、 x 4 x_1、x_2、x_3、x_4 x1x2x3x4,对应的输出是向量 h 1 、 h 2 、 h 3 、 h 4 h_1、h_2、h_3、h_4 h1h2h3h4。编码的目的实际上就要考虑序列的全局并聚焦重点,所以Encoder的核心就是自注意力机制,但不仅仅只有自注意力机制。
编码器
Encoder由多个Block组成,每个Block又由自注意力(self-attention)网络和全连接(full-connected)组成。向量 x 1 、 x 2 、 x 3 、 x 4 x_1、x_2、x_3、x_4 x1x2x3x<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值