MultiResolution Attention Extractor for Small Object Detection 论文笔记

针对小目标检测难题,提出MultiResolutionAttentionExtractor (MRAE)方法,结合ResNet101与Fast R-CNN,利用注意力机制有效提升小目标识别精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

background

任务:目标检测中对于小目标的识别和检测,提高对小目标的检测精度
关键词:MultiResolution Attention Extractor (MRAE)

Introduction

在一张图片中,小目标的分辨率很低,对于cnn网络,鲁棒性和精准小目标的识别似乎是一种矛盾关系,而且对于目标的检测,需要将目标映射到高维空间中,通过多通道的各个特征的提取,判断目标的种类等分类信息,但低分辨率的高维空间,小目标很可能被当作噪音过滤掉,训练方向或者效果很差。
基于目前的问题,论文作者提出了利用attention机制对小目标进行识别和检测,主要思想是通过一个可学习的中间网络,综合低分辨率高维图像和低维图像,目标的边缘信息和丰富的语义信息都要综合利用,得到最后的feature maps 然后参考faster rcnn 对小目标进行检测
网络的前段框架利用resnet101,后端类似faster rcnn对目标进行检测,利用resnet中的conv2_x,conv3_x,con4_x,的输出feature maps做出softmax的分数,然后利用softmax的分数对三层的输出进行加权,得到最后输入到 conv5_x的feature maps,再做目标检测任务。
attention机制的softmax主要通过两种方式获得:
1.对feature maps做一次卷积,得到通道数为1的feature maps 然后做一次global pooling,得到一个值,利用不同分辨率下的值做softmax,得到加权向量。
(个人认为,global pooling,是基于全局的pooling,强调鲁棒性,虽然有conv的一次操作,但一次conv的学习能力有限,可能对于反向传播的梯度不是很大,说白了,就是pooling的鲁棒性倾向会破坏conv的学习成果,被原本的图片中的更加显著的特征代替,所以此时的softmax在一些图片中的效果可能不好,甚至有相反的效果,让后面的网络不知道干什么)
2.对feature maps做一次conv然后全连接,各个分辨率下得到各自的向量,然后通过向量的余弦相似度确定得分,然后通过softmax确定最后的加权向量。
(为什么通过余弦相似度来确定分数?感觉有较好的效果是因为前面的学习能力增强,attention的能力变强,与相似度无关,想通过一个其他的方式来获取分数,就是一种正向的感觉,余弦相似度感觉就是横向的,只是一种表示方法,没有促进attention的效果)

Model

模型主要利用faster rcnn框架,不过前端的cnn改换成resnet101,为了产生不同分辨率下的feature maps,然后对各个分辨率下的图片做了一次attention,得到加权后的feature maps,然后进入resnet101的conv5_x,之后是faster
rcnn 的正常操作

resnet 101

在这里插入图片描述

MultiResolution Attention Extractor (MRAE)


在这里插入图片描述

左侧图片(a)

由(a)图片中由下至上产生的feature maps 分别是 C 1 , C 2 , C 3 C_1,C_2,C_3 C1,C2,C3
attention的权重:
a i = e x p ( f ( F i ) ) ∑ k = 1 3 e x p ( ( f ( F k ) ) ) a^i=\frac{exp(f(F^i))}{\sum_{k=1}^3exp((f(F^k)))} ai=k=13exp((f(Fk)))exp(f(Fi))


其中 f ( . ) f(.) f(.)代表11 conv和global pooling , F F F是输入的feature maps, a i a^i ai是对于每个分辨率下的attention权重
为了是不同分辨率下的图片能相加,做了上采样和1
1conv使通道数都为1024
最后的feature maps:
A = ∑ i = 1 3 a i g ( F i ) A=\sum_{i=1}^3a^ig(F^i) A=i=13aig(Fi)
其中 g ( . ) g(.) g(.)就是上采样和1*1conv操作

右侧图片(b)

对上方进行了一些改进,主要是attention的产生方式上,11conv之后加一次fc,然后通过选择模板,计算余弦相似度来确定最后的attention的权重
余弦相似度:
D i [ a ] [ b ] = c o s ( F t [ a ] , F i [ b ] ) = F t [ a ] . F i [ b ] ∣ F t [ a ] ∣ . ∣ F i [ b ] ∣ D^i[a][b]=cos(F^t[a],F^i[b])=\frac{F^t[a].F^i[b]}{|F^t[a]|.|F^i[b]|} Di[a][b]=cos(Ft[a],Fi[b])=Ft[a].Fi[b]Ft[a].Fi[b]
余弦相似度主要计算两个向量的夹角的余弦值,来确定相似度 F t [ a ] F^t[a] Ft[a]是确定以哪一个feature maps经过小网络后的向量为模板
attention的权重:
a i = e x p ( D i ) ∑ k = 1 3 e x p ( D k ) ) a^i=\frac{exp(D^i)}{\sum_{k=1}^3exp(D^k))} ai=k=13exp(Dk))exp(Di)
最后的feature maps:
A = ∑ i = 1 3 a i g ( F i ) A=\sum_{i=1}^3a^ig(F^i) A=i=13aig(Fi)
其中 g ( . ) g(.) g(.)就是上采样和1
1conv操作

Expriment


在这里插入图片描述

训练集和验证集中的目标的分布(依据宽度和高度)


在这里插入图片描述

在这里插入图片描述

首先,ap等值有明显提升,然后以 C 2 C_2 C2为模板效果好些


在图片中的效果:
在这里插入图片描述

Learn from paper


1.通过对不同分辨率下的图片进行attention,得到加权和,但我感觉,在反向传播中使网络注意小目标的效果是不是不是很高,网络前期对小目标的“放大”作用感觉不是很明显,而且第二次的改进,余弦相似度,可以通过其他方式(虽还没想到)代替,因为输入的向量噪音太多了,相似什么?,相似噪音的话意义不是很大,虽有对小目标的相似,但感觉不是很凸显,收敛的速度可能不是很快


2.关于模板问题,作者是通过实验发现 C 2 , C 3 C_2,C_3 C2,C3有比较好的效果,但我感觉还可以找到更好的模板,就是对三个向量做一次可学习的加权求和,然后通过全连接,映射出新的向量,以这个可学习的向量,来调整,得到最后最合适的模板向量,感觉之前的方法很迷,或者就是猜出来的




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值