66 使用注意力机制的seq2seq_by《李沐：动手学深度学习v2》pytorch版

原创

已于 2024-09-30 13:05:06 修改 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #人工智能

于 2024-09-30 12:50:55 首次发布

系列文章目录

文章目录

系列文章目录
动机
加入注意力
总结
代码

我们来真的看一下实际应用中，key，value，query是什么东西，但是取决于应用场景不同，这三个东西会产生变化。先将放在seq2seq这个例子。

动机

机器翻译中，每个生成的词可能相关于源句子中不同的词。
比如RNN的最后一个时刻的最后一个输出，把所有东西压到一起，你看到的东西可能看不清楚。我想要翻译对应的词的时候，关注原句子中对应的部分，这就是将注意力机制放在seq2seq的动机，而之前的seq2seq模型中不能对此直接建模。
在这里插入图片描述

加入注意力

在这里插入图片描述
大体上就是，我在解码器RNN的输入一部分来自embedding，之前还有一部分是来自RNN最后一个时刻的最后一层作为上下文和embedding一起传进去。现在说最后一个时刻作为Context传进去不好，我应该根据我的现在预测值的不一样去选择不是最后一个时刻，可能是前面某个时刻对应的那些隐藏状态（经过注意力机制）作为输入。
编码器对每次词的输出作为key和value(它们成对的）。
解码器RNN对上一个词的输出是query。
注意力的输出和下一个词的词嵌入合并进入解码器。

总结

Seq2seq中通过隐状态在编码器和解码器中传递信息
注意力机制可以根据解码器RNN的输出来匹配到合适的编码器RNN的输出来更有效的传递信息

代码

import torch
from torch import nn
from d2l import torch as d2l

定义注意力解码器

下面看看如何定义Bahdanau注意力，实现循环神经网络编码器-解码器。
其实，我们只需重新定义解码器即可。
为了更方便地显示学习的注意力权重，
以下AttentionDecoder类定义了[带有注意力机制解码器的基本接口]。

#@save
class AttentionDecoder(d2l.Decoder):
    """带有注意力机制解码器的基本接口"""
    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)

    @property
    def attention_weights(self): #画图所需代码
        raise NotImplementedError

接下来，让我们在接下来的Seq2SeqAttentionDecoder类中[实现带有Bahdanau注意力的循环神经网络解码器]。
首先，初始化解码器的状态，需要下面的输入：

编码器在所有时间步的最终层隐状态，将作为注意力的键和值；
上一时间步的编码器全层隐状态，将作为初始化解码器的隐状态；
编码器有效长度（排除在注意力池中填充词元）。

在每个解码时间步骤中，解码器上一个时间步的最终层隐状态将用作查询。
因此，注意力输出和输入嵌入都连结为循环神经网络解码器的输入。

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(num_hiddens, num_hiddens, num_hiddens, dropout) #相比之前只是新增了这行代码
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU( embed_size + num_hiddens, num_hiddens, num_layers, dropout=dropout

最低0.47元/天解锁文章