MultiResolution Attention Extractor for Small Object Detection 论文笔记_multiresolution attentionextractor-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_40253737/article/details/119295883

针对小目标检测难题，提出MultiResolutionAttentionExtractor (MRAE)方法，结合ResNet101与Fast R-CNN，利用注意力机制有效提升小目标识别精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

background

任务：目标检测中对于小目标的识别和检测，提高对小目标的检测精度
关键词：MultiResolution Attention Extractor (MRAE)

Introduction

在一张图片中，小目标的分辨率很低，对于cnn网络，鲁棒性和精准小目标的识别似乎是一种矛盾关系，而且对于目标的检测，需要将目标映射到高维空间中，通过多通道的各个特征的提取，判断目标的种类等分类信息，但低分辨率的高维空间，小目标很可能被当作噪音过滤掉，训练方向或者效果很差。
基于目前的问题，论文作者提出了利用attention机制对小目标进行识别和检测，主要思想是通过一个可学习的中间网络，综合低分辨率高维图像和低维图像，目标的边缘信息和丰富的语义信息都要综合利用，得到最后的feature maps 然后参考faster rcnn 对小目标进行检测
网络的前段框架利用resnet101，后端类似faster rcnn对目标进行检测，利用resnet中的conv2_x,conv3_x,con4_x,的输出feature maps做出softmax的分数，然后利用softmax的分数对三层的输出进行加权，得到最后输入到 conv5_x的feature maps，再做目标检测任务。
attention机制的softmax主要通过两种方式获得：
1.对feature maps做一次卷积，得到通道数为1的feature maps 然后做一次global pooling，得到一个值，利用不同分辨率下的值做softmax，得到加权向量。
（个人认为，global pooling，是基于全局的pooling，强调鲁棒性，虽然有conv的一次操作，但一次conv的学习能力有限，可能对于反向传播的梯度不是很大，说白了，就是pooling的鲁棒性倾向会破坏conv的学习成果，被原本的图片中的更加显著的特征代替，所以此时的softmax在一些图片中的效果可能不好，甚至有相反的效果，让后面的网络不知道干什么）
2.对feature maps做一次conv然后全连接，各个分辨率下得到各自的向量，然后通过向量的余弦相似度确定得分，然后通过softmax确定最后的加权向量。
（为什么通过余弦相似度来确定分数？感觉有较好的效果是因为前面的学习能力增强，attention的能力变强，与相似度无关，想通过一个其他的方式来获取分数，就是一种正向的感觉，余弦相似度感觉就是横向的，只是一种表示方法，没有促进attention的效果）

Model

模型主要利用faster rcnn框架，不过前端的cnn改换成resnet101，为了产生不同分辨率下的feature maps，然后对各个分辨率下的图片做了一次attention，得到加权后的feature maps，然后进入resnet101的conv5_x,之后是faster
rcnn 的正常操作

resnet 101

在这里插入图片描述

MultiResolution Attention Extractor (MRAE)

在这里插入图片描述

左侧图片(a)

由（a）图片中由下至上产生的feature maps 分别是 $C_1,C_2,C_3$
attention的权重：
$a^i=\frac{exp(f(F^i))}{\sum_{k=1}^3exp((f(F^k)))}$

其中 $f (.)$ 代表11 conv和global pooling ， $F$ 是输入的feature maps， $a^i$ 是对于每个分辨率下的attention权重
为了是不同分辨率下的图片能相加，做了上采样和11conv使通道数都为1024
最后的feature maps：
$A=\sum_{i=1}^3a^ig(F^i)$
其中 $g (.)$ 就是上采样和1*1conv操作

右侧图片(b)

对上方进行了一些改进，主要是attention的产生方式上，11conv之后加一次fc，然后通过选择模板，计算余弦相似度来确定最后的attention的权重
余弦相似度：
$D^i[a][b]=cos(F^t[a],F^i[b])=\frac{F^t[a].F^i[b]}{|F^t[a]|.|F^i[b]|}$
余弦相似度主要计算两个向量的夹角的余弦值，来确定相似度 $F^t[a]$ 是确定以哪一个feature maps经过小网络后的向量为模板
attention的权重：
$a^i=\frac{exp(D^i)}{\sum_{k=1}^3exp(D^k))}$
最后的feature maps：
$A=\sum_{i=1}^3a^ig(F^i)$
其中 $g (.)$ 就是上采样和11conv操作

Expriment

在这里插入图片描述

训练集和验证集中的目标的分布（依据宽度和高度）

首先，ap等值有明显提升，然后以 $C_2$ 为模板效果好些

在图片中的效果：

Learn from paper

1.通过对不同分辨率下的图片进行attention，得到加权和，但我感觉，在反向传播中使网络注意小目标的效果是不是不是很高，网络前期对小目标的“放大”作用感觉不是很明显，而且第二次的改进，余弦相似度，可以通过其他方式（虽还没想到）代替，因为输入的向量噪音太多了，相似什么？，相似噪音的话意义不是很大，虽有对小目标的相似，但感觉不是很凸显，收敛的速度可能不是很快

2.关于模板问题，作者是通过实验发现 $C_2,C_3$ 有比较好的效果，但我感觉还可以找到更好的模板，就是对三个向量做一次可学习的加权求和，然后通过全连接，映射出新的向量，以这个可学习的向量，来调整，得到最后最合适的模板向量，感觉之前的方法很迷，或者就是猜出来的