Transformer代码架构

最新推荐文章于 2025-04-27 17:59:04 发布

mrfu1108

最新推荐文章于 2025-04-27 17:59:04 发布

阅读量345

点赞数

分类专栏： transformer 文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_21574467/article/details/129939453

版权

transformer 专栏收录该内容

1 篇文章

订阅专栏

Transformer代码架构

encoder: Encoder(layer, N)
- layer: EncoderLayer(size, self_attn, feed_forward, dropout)
decoder: Encoder(layer, N)
- layer: DecoderLayer(size, self_attn, src_attn, feed_forward, dropout)
input embedding + positional encoding
- Embeddings(d_model, src_vocab)
- Positional Encoding
output embedding + positional encoding
- Embeddings(d_model, src_vocab)
- Positional Encoding
generator（linear + softmax）

transformer模型调用时，EncoderDecoder()共含有5个参数，分别为:
【encoder】【decoder】【input embeddings + position】【output embeddings + position】【generator】

EncoderDecoder(encoder, decoder, src_embed, tgt_embed, generator)

model = EncoderDecoder(
    Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N),
    Decoder(DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout), N),
    nn.Sequential(Embeddings(d_model, src_vocab), c(position)),
    nn.Sequential(Embeddings(d_model, tgt_vocab), c(position)),
    Generator(d_model, tgt_vocab)
    )

encoder: Encoder(layer, N)

N为层数，该层共调用几次

Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N)

layer: EncoderLayer(size, self_attn, feed_forward, dropout)

EncoderLayer(d_model, c(attn), c(ff), dropout)

d_model: 特征的维度（一个单词共有多少个特征）
c(): deepcopy
attn: MultiHeadedAttention(h, d_model) 
ff: PositionwiseFeedForward(d_model, d_ff, dropout)

decoder: Encoder(layer, N)

Decoder(DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout), N)

layer: DecoderLayer(size, self_attn, src_attn, feed_forward, dropout)

DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout)

d_model: 特征的维度（一个单词共有多少个特征）
c(): deepcopy
attn: MultiHeadedAttention(h, d_model) 
ff: PositionwiseFeedForward(d_model, d_ff, dropout)

input embedding + positional encoding

nn.Sequential(Embeddings(d_model, src_vocab), c(position))

Embeddings(d_model, src_vocab)

Embeddings(d_model, vocab)

d_model: 特征的维度（一个单词共有多少个特征）
vocab: 字典有多少个单词

Positional Encoding

PositionalEncoding(d_model, dropout, max_len)

output embedding + positional encoding

nn.Sequential(Embeddings(d_model, src_vocab), c(position))

Embeddings(d_model, src_vocab)

Embeddings(d_model, vocab)

d_model: 特征的维度（一个单词共有多少个特征）
vocab: 字典有多少个单词

Positional Encoding

PositionalEncoding(d_model, dropout, max_len)

generator（linear + softmax）

Generator(d_model, vocab)