编码器—解码器（seq2seq）+ Attention

最新推荐文章于 2025-06-23 17:36:22 发布

Shingle_

最新推荐文章于 2025-06-23 17:36:22 发布

阅读量1.6w

点赞数 8

CC 4.0 BY-SA版权

分类专栏：深度学习自然语言处理文章标签： seq2seq Attention Beam Search rnn

本文链接：https://blog.youkuaiyun.com/Shingle_/article/details/82529487

本文介绍了编码器-解码器(seq2seq)结构在处理不定长序列任务如机器翻译中的应用。讨论了编码器如何将输入序列转换为固定长度的上下文变量，解码器如何基于此生成输出序列。特别地，文章详细阐述了注意力机制(Attention)，以及在解码过程中如何利用不同时间步的注意力权重来改进输出。此外，还探讨了模型训练方法及束搜索(Beam Search)在序列预测中的作用，分析了不同搜索策略的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

输入和输出都可以是不定长序列，例如机器翻译、图像描述

这里写图片描述

在训练数据集中，我们可以在每个句子后附上特殊符号“”（end of sequence）表示序列的终止。

编码器

编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量 c，并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。

循环神经网络隐藏层的变换:

h t = f (x t, h t - 1) .

${h}_t = f({x}_t, {h}_{t-1}).$

通过自定义函数 q 将各个时间步的隐藏状态变换为背景变量:

c = q (h 1, \dots, h T) .

${c} = q({h}_1, \ldots, {h}_T).$

例如，当选择 $q(h_1,…,h_T)=h_T$ 时，背景变量是输入序列最终时间步的隐藏状态 $h_T$

编码器也可以时双向RNN，需要注意的是，编码器和解码器通常需要使用多层循环神经网络。（可以是多种多样的，网络结构以及自定义函数q）

class Encoder(nn.Block):
    def __init__(self, num_inputs, embed_size, num_hiddens, num_layers,
                 drop_prob, **kwargs):
        super(Encoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(num_inputs, embed_size)
        self.dropout = nn.Dropout(drop_prob)
        self.rnn = rnn.GRU(num_hiddens, num_layers, dropout=drop_prob,
                           input_size=embed_size)

    def forward(self, inputs, state):
        embedding = self.embedding(inputs).swapaxes(0, 1)
        embedding = self.dropout(embedding)
        output, state = self.rnn(embedding, state)
        return output, state

    def begin_state(self, *args, **kwargs):
        return self.rnn.begin_state(*args, **kwargs)