《An Attentive Survey of Attention Models》论文阅读笔记

本文是关于《An Attentive Survey of Attention Models》的阅读笔记,主要探讨了注意力机制在解决神经网络信息丢失、序列对齐等问题上的作用。文章详细介绍了注意力模型的类型,包括distinctive、co-attention、self-attention等,并讨论了它们在翻译、VQA、文本分类等任务中的应用。此外,还提到了不同类型的注意力模型,如soft、hard、global和local,以及multi-representational和multi-dimensional注意力。最后,文章讨论了注意力机制在encoder-decoder、memory networks和Transformer结构中的应用,强调了其对提高模型可解释性的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IJCAI 2019的文章,对注意力机制做的综述。

地址:https://arxiv.org/abs/1904.02874

注意力机制的高速发展有三个原因:

1、这些模型取得了state-of-the-art的结果。

2、注意力机制可以被用来提升神经网络的可解释性。不然NN只能被理解为一个黑盒。

3、有助于克服递归神经网络(RNNs)的一些挑战,如随着输入长度的增加而导致的性能下降和由于输入的顺序处理而导致的计算效率低下。

传统encoder-decoder存在的问题:

首先,编码器必须将所有输入信息压缩成一个固定长度的向量hT,然后将其传递给解码器。使用单一固定长度向量压缩长而详细的输入序列可能会导致信息丢失。

其次,它无法对输入和输出序列之间的对齐进行建模,尤其是在MT和自动摘要等任务中。

直观上看,每一个output都应该跟特定的部分input有关,但是传统的模型并没有考虑到这个问题。

 

加了注意力机制之后,就是把原先decoder输入只有hT改成了从{h1,h2,...,hT}都输入,加一个权重矩阵,给某些位置的input加了优先级。

结构中的注意力块负责自动学习注意力权重αij,表示hi和sj之间的相关性。hi是encoder的隐藏层,文中叫candidate state,sj是decoder的隐藏层,文中叫query state。

这些注意力权重会被用来生成context vector c,然后c被作为输入送入到decoder。

在每一个decoding位置j,cj是encoder所有隐藏状态及其对应注意权值的加权和。<

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值