66 使用注意力机制的seq2seq_by《李沐:动手学深度学习v2》pytorch版

系列文章目录



我们来真的看一下实际应用中,key,value,query是什么东西,但是取决于应用场景不同,这三个东西会产生变化。先将放在seq2seq这个例子。

动机

机器翻译中,每个生成的词可能相关于源句子中不同的词。
比如RNN的最后一个时刻的最后一个输出,把所有东西压到一起,你看到的东西可能看不清楚。我想要翻译对应的词的时候,关注原句子中对应的部分,这就是将注意力机制放在seq2seq的动机,而之前的seq2seq模型中不能对此直接建模。
在这里插入图片描述

加入注意力

在这里插入图片描述
大体上就是,我在解码器RNN的输入一部分来自embedding,之前还有一部分是来自RNN最后一个时刻的最后一层作为上下文和embedding一起传进去。现在说最后一个时刻作为Context传进去不好,我应该根据我的现在预测值的不一样去选择不是最后一个时刻,可能是前面某个时刻对应的那些隐藏状态(经过注意力机制)作为输入。
编码器对每次词的输出作为key和value(它们成对的)。
解码器RNN对上一个词的输出是query。
注意力的输出和下一个词的词嵌入合并进入解码器。

总结

  1. Seq2seq中通过隐状态在编码器和解码器中传递信息
  2. 注意力机制可以根据解码器RNN的输出来匹配到合适的编码器RNN的输出来更有效的传递信息

代码

import torch
from torch import nn
from d2l import torch as d2l

定义注意力解码器

下面看看如何定义Bahdanau注意力,实现循环神经网络编码器-解码器。
其实,我们只需重新定义解码器即可。
为了更方便地显示学习的注意力权重,
以下AttentionDecoder类定义了[带有注意力机制解码器的基本接口]。

#@save
class AttentionDecoder(d2l.Decoder):
    """带有注意力机制解码器的基本接口"""
    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)

    @property
    def attention_weights(self): #画图所需代码
        raise NotImplementedError

接下来,让我们在接下来的Seq2SeqAttentionDecoder类中[实现带有Bahdanau注意力的循环神经网络解码器]。
首先,初始化解码器的状态,需要下面的输入:

  1. 编码器在所有时间步的最终层隐状态,将作为注意力的键和值;
  2. 上一时间步的编码器全层隐状态,将作为初始化解码器的隐状态;
  3. 编码器有效长度(排除在注意力池中填充词元)。

在每个解码时间步骤中,解码器上一个时间步的最终层隐状态将用作查询。
因此,注意力输出和输入嵌入都连结为循环神经网络解码器的输入。

class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(num_hiddens, num_hiddens, num_hiddens, dropout) #相比之前只是新增了这行代码
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU( embed_size + num_hiddens, num_hiddens, num_layers, dropout=dropout
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值