头歌——机器、深度学习——RNN循环神经网络

第1关:Attention注意力机制

任务描述

本关任务:了解循环神经网络中的Attention注意力机制并回答相关问题

相关知识

为了完成本关任务,你需要掌握:1.Attention注意力机制基本知识

什么是Attention注意力机制

在计算能力有限的情况下,注意力机制(Attention Mechanism)作为一种资源分配方案,将有限的计算资源用来处理更加重要的信息,是解决信息超载问题的主要手段。当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只选择一些关键的信息输入进行处理,来提高神经网络的效率。

在目前的神经网络模型中,我们可以将最大汇聚(Max Pooling)、门控(Gating)机制近似地看作自上而下的基于显著性的注意力机制。除此之外,自上而下的聚焦式注意力也是一种有效的信息选择方式。以阅读理解任务为例,给定一篇很长的文章,然后就此文章的内容进行提问。提出的问题只和段落中的一两个句子相关,其余部分都是无关的。为了减小神经网络的计算负担,只需要把相关的片段挑出来让后续的神经网络来处理,而不需要把所有的文字内容都输入给神经网络。

seq2seq中的Attention注意力机制

Attention注意力机制常用于seq2seq模型当中,下图为一个简单的Encoder-Decoder的seq2seq机器翻译模型,在传统的seq2seq模型中输出序列y对输入序列x1,x2,x3没有区分,没有辨识度。

Encoder-Decoder

由于没有引用引入注意力,模型对于输入的辨识度较低,我们在seq2seq机器翻译模型中引入Attention注意力,每个输出词y都受到输入x1,x2,x3影响的权重不同,这个权重是通过Attention注意力进行计算的,因此可以把Attention机制看作注意力分配系数,下图为引入注意力的seq2seq机器翻译模型。

Encoder-Decoder_attention

下面将结合上图详细讲解Attension注意力实现过程 (1) 首先利用双向RNN结构得到隐层状态(h1, h2, …, hn) (2) 如当前已经decoder到隐层St-1,接下来计算每一个输入位置hj对当前位置i的影响

ei

这里attention的计算方式可以有很多种,点乘形式、加权点乘形式或求和形式 (3) 对eij进行softmax将其normalization得到attention权重分布,如下所示

ai

(4) 利用a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

花来❀勿Q

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值