Attention的相关工作



谢邀。一年前的这个时候,梳理过Attention的相关工作,Attention可以从多个角度上进行认识:

1. 首先是Object Recognition。我是从Recurrent Model of Visual Attention (RAM)开始关注Attention的,作者是DeepMind 的Mnih (Hinton高徒),加上后面他的师弟Jimmy在DeepMind 实习期间发的这个工作的后续Multiple Object Recognition with Visual Attention(DRAM),都是比较有趣的工作。说其有趣,是因为模型结合了CNN,RNN 和 Reinforcement Learning,来解决问题。值得注意的是,这两篇文章属于提出新思路,实验都只是在变换的MNIST上做的,放在实际场景数据集上未必work(我出于兴趣复现了tf版的DRAM,并且在其上对它进行很大程度了改进,并引入了weakly supervised的因素,虽在变换的MNIST上表现很好,后面我尝试过拿他来在现实场景的datasets上做实验,但是效果不好;也尝试了拿它做车辆的细粒度分类,同样没有直接拿一个 CNN 效果好(可能是我太不才,求交流))。跟前两篇方法类似,用attention来做图像生成,如DRAW: A Recurrent Neural Network For Image Generation 来序列地生成数字。

2. 然后是Image Caption。Xu在ICML上的 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention可谓应用Attetion来解image caption的经典。该文中也总结出Soft attention 和 Hard attention。soft是拿deterministic的分布作为权重进行加权,hard是从分布上stochastic 采样。这类工作也是用RNN逐渐进行处理的。

3. NLP中的Machine Translation. 前面的工作都是用时序地进行Attention来关注一幅图像的不同位置区域。类比sequence问题,也就顺理成章地用在Machine Translation上了,同样是时序的关注不同历史特征来出每一个翻译词汇。Attention用在Machine Translation上的文章很多,具体可关注Bengio组的工作,比如neural machine translation

4. 不使用RNN结构。在特征图上生成空间分布的权重,然后再对特征图加权求和,试图让网络学出来对不同物体区域加以不同关注度。之后的在CV领域中应用attention绝大多数都是这么干的。例如,spatial transformer networks(STN)是之后将attention用于物体识别比较有名的一篇文章,在一些现实应用中仍被使用。再如residual attention network.

5. 总结与泛化。划重点:attention机制听起来高达上,其实就是学出一个权重分布,再拿这个权重分布施加在原来的特征之上,就可以叫做attention。简单来说:

(1)这个加权可以是保留所有分量均做加权(即soft attention);也可以是在分布中以某种采样策略选取部分分量(即hard attention)。

(2)这个加权可以作用在原图上,也就是RAM和DRAM;也可以作用在特征图上,如后续的好多文章(例如image caption)。

(3)这个加权可以作用在空间尺度上,给不同空间区域加权;也可以作用在channel尺度上,给不同通道特征加权;甚至特征图上每个元素加权。

(4)这个加权还可以作用在不同时刻历史特征上,如Machine Translation,以及我前段时间做的视频相关的工作。

所以说,Attention是啥啊?不就是一个权重分布嘛,搞得玄乎其玄~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值