2 基础知识补全：EXCAVATING ROI ATTENTION FOR UNDERWATER OBJECT DETECTION-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_52696817/article/details/129487567

1 ROI attention module

ROI：region of interest(感兴趣区域，是针对原始图片的提议区域【proposed region】）

由于ROI可以看作是原始特征的一部分，因此可以挖掘ROI之间的关系来提升ROI特征的特性。然而由于感兴趣区域的数量和特征的长度都非常大，自注意会产生很大的计算代价，外部注意力是自注意力的有效替代，它为获得感兴趣区域之前的关系提供了一种途径，称其为ROI注意力。

归一化：

双归一化：

2 double head

在目标检测过程中，主要包括回归和分类两个任务，对于两级检测器，全连接层更适合于分类任务，卷积层更适合回归任务，因此对于对于这两种不同的任务，需要单独的分支。绿色框表示回归分支，黄色框表示分类分支。首先，分别使用比例因子1（分类分支）和1.3（回归分支）从特征图中剪裁ROI，其次，将分类ROI特征和回归ROI特征输入到上述共享ROI注意力模块。第三，在分类分支中，平化ROI特征并使用两个线性层来获得分类得分，对于回归分支，利用剩余瓶颈来提取回归特征，接着是平均汇集和线性层来提取边界框的坐标。对于回归分支的卷积细节，供使用了四层卷积，其中两层作为一个块。

3 positional encoding module

因为回归是一个位置敏感的任务。卷积很难直接回归坐标信息。因此，我们认为向特征添加明确的位置信息以提高回归性能是合乎逻辑的。因此我们设计了一个位置编码模块（如图3所示）。以及两个坐标映射 $_{}$ $C_{x}$ ， $_{}$ $C_{y}$ ∈ $R^{C\times H\times W}$ ：对于来自骨干FPN的基本特征X ∈ $R^{C\times H\times W}$ ，我们将两个坐标映射与基本特征连接，并使用1×1变换将特征降采样回原始大小： $_{}$ $X_{r}$ 是位置编码特征。对于来自骨干FPN的不同尺度特征，我们使用共享的1 × 1变换进行下采样。由于我们采用了双头结构，因此仅对回归分支的特征进行编码。