GAIN
paper: Tell Me Where to Look: Guided Attention Inference Network
本文是基于SEC算法进行的改进,在SEC的基础上提升了5个百分点左右。
这篇文章…感觉没有什么创新…其实就是类似对抗擦除的思路,将第一次识别出来的区域进行遮挡,强迫神经网络找出所有能用于识别类别的信息。
结构如下:

- 输入图像III,经过DCNN得到识别的attention maps和类别的置信度。我们希望这个置信度越匹配label越好。
- 将识别处的区域进行擦除,对应途中的soft mask操作,将擦除后的图像在送入该网络,得到类别的置信度。我们希望擦除后的图像不在具有类别的信息,所以这里我们希望每个类别的置信度都尽可能小(趋紧于0)。
Classification Loss:预测结果于label的交叉熵。
Attention Mining Loss: Lam=1n∑csc(I∗c)L_{a m}=\frac{1}{n} \sum_{c} s^{c}\left(I^{* c}\right)Lam=n1∑csc(I∗c)
addition
图中获得Attention map的方式是基于Grad-CAM的。
两个loss的权重是相同的。
performance
| VOC12 val | VOC12 test |
|---|---|
| 55.3 | 56.8 |
本文介绍了一种基于SEC算法改进的GAIN网络,通过在首次识别后遮挡已识别区域,迫使网络发掘更多类别信息,提升识别准确性。文章详细阐述了其结构、损失函数及性能表现。
1954

被折叠的 条评论
为什么被折叠?



