PyTorch 中的 nn.Transformer
是一个实现了Transformer模型
的类。Transformer 是一种基于注意力机制
的深度学习模型,最早由 Vaswani 等人在 2017
年提出,用于自然语言处理任务。与传统的循环神经网络(如 LSTM、GRU)不同,Transformer 不依赖于序列顺序
,而是通过注意力机制
来捕捉序列中的依赖关系
,因此具有并行计算
的优势。
nn.Transformer
的基本构成
nn.Transformer
主要由两个部分组成:编码器
(Encoder)和解码器
(Decoder)。
-
编码器(Encoder):编码器由多个相同结构的
编码层
(Encoder Layer)堆叠而成,每个编码层包括两个子层:多头自注意力机制
(Multi-Head Self-Attention)前馈神经网络
(Feed-Forward Neural Network)
-
解码器(Decoder):解码器同样由多个相同结构的解码层(Decoder Layer)