1、本文的三个创新点
Multi-context attention,CRF,HRU的设计增大感受野
2、首先作者指出多语义表示的重要性,attention map依托于feature map集中在图像中感兴趣的部分,他能帮助恢复遗失的身体部件,并且能够区分出有歧义的背景。作者采用stacked hourglass作为依附
1)每个hourglass从不同分辨率的feature map来产生attention map(multi-resolution attention)
2)对于hourglass stack,每个stack产生attention map(multi-semantics attention)
上面的两个attention统称为holistic attention,但是仅仅这两个是不够的,尽管他们能克服遮挡和复杂的背景,但是他们缺乏对关节的精确定位,所以最后作者提出part attention
3)part attention(zoom in on local regions to see clear)
通常的attention是用在RNN网络中的,结合不同时间步的信息来做最后的决定,本文不是这样的,holistic attention map和part attention用继承性的顺序
attention主要是加在原来的feature map上,自动推断感兴趣的区域
新设计的HRU单元能够快速的增长感受野
3、
3.1 HRU的设计
新加的C分支可以增大感受野,自己感受吧
3.2
传统的attention是基于softmax去做的,本文的attention是基于CRF来做的,基于CRF可以能够把局部的pattern的信息拿进来,softmax把各个部分都同等对待了,没有考虑关节之间的关联
3.2.1
首先用基于CRF的attention来做,CRF的label assignment是如下的
每一个y=1的概率计算通过平均长近似来过的
是通过卷积feature h获得的,
基于前一时刻的attention卷积,但是第一步没有attention,那就用
实现即可
总体的实现方案
Wk代表的是空间核,在不同的时间戳是共享的,作者用三层的迭代卷积实现,原来类同hourglass
3.2.2
Multi-Resolution Attention
从图中可以发现不同分辨率的attention关注的焦点是不一样的,小分辨率的注意在整体,高分辨率的更加注重细节,最后将不同的resolution的attention加起来和最后的f做点乘。将attention用在latter feature上,因为如果用在之前的每一个feature map上,会有大量地0,使反向传播更加的困难
3.2.3 Multi-Semantics Attention
浅层的attention捕捉local information,高层的attention捕捉 global information
3.2.4
在4~8的stack的hourglass上面,开始进行part attention的构建,每一个部位建立自己的attention