1 ROI attention module
ROI:region of interest(感兴趣区域,是针对原始图片的提议区域【proposed region】)
由于ROI可以看作是原始特征的一部分,因此可以挖掘ROI之间的关系来提升ROI特征的特性。然而由于感兴趣区域的数量和特征的长度都非常大,自注意会产生很大的计算代价,外部注意力是自注意力的有效替代,它为获得感兴趣区域之前的关系提供了一种途径,称其为ROI注意力。
归一化:
双归一化:
2 double head
在目标检测过程中,主要包括回归和分类两个任务,对于两级检测器,全连接层更适合于分类任务,卷积层更适合回归任务,因此对于对于这两种不同的任务,需要单独的分支。绿色框表示回归分支,黄色框表示分类分支。首先,分别使用比例因子1(分类分支)和1.3(回归分支)从特征图中剪裁ROI,其次,将分类ROI特征和回归ROI特征输入到上述共享ROI注意力模块。第三,在分类分支中,平化ROI特征并使用两个线性层来获得分类得分,对于回归分支,利用剩余瓶颈来提取回归特征,接着是平均汇集和线性层来提取边界框的坐标。对于回归分支的卷积细节,供使用了四层卷积,其中两层作为一个块。
3 positional encoding module
因为回归是一个位置敏感的任务。卷积很难直接回归坐标信息。因此,我们认为向特征添加明确的位置信息以提高回归性能是合乎逻辑的。因此我们设计了一个位置编码模块(如图3所示)。以及两个坐标映射,
∈
:对于来自骨干FPN的基本特征X ∈
,我们将两个坐标映射与基本特征连接,并使用1×1变换将特征降采样回原始大小:
是位置编码特征。对于来自骨干FPN的不同尺度特征,我们使用共享的1 × 1变换进行下采样。由于我们采用了双头结构,因此仅对回归分支的特征进行编码。