RetinaNet 分类头和回归头的网络结构分析

原创

于 2024-10-12 15:51:19 发布 · 2.9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#分类 #回归 #数据挖掘

RetinaNet 是由 Facebook AI Research（FAIR）在 2017 年提出的一种高效的一阶段（one-stage）目标检测算法。相比于两阶段（two-stage）方法，RetinaNet 通过引入 Focal Loss 解决了类别不平衡问题，从而在保持高检测速度的同时，实现了与两阶段方法相媲美的检测精度。

本文将深入解析 RetinaNet 的分类头和回归头的网络结构，并详细说明每一层的输入输出尺寸。

RetinaNet 总体架构概述

RetinaNet 主要由以下几个部分组成：

主干网络（Backbone）：通常使用 ResNet（如 ResNet-50 或 ResNet-101）作为特征提取器。
特征金字塔网络（Feature Pyramid Network, FPN）：在主干网络的不同层级生成多尺度的特征图。
分类头（Classification Head）：用于对每个锚框（anchor）进行类别预测。
回归头（Regression Head）：用于对每个锚框进行边界框回归（位置调整）。

下图展示了 RetinaNet 的整体架构、分类头和回归头的结构（图来自于B站up：霹雳吧啦Wz）：

在这里插入图片描述

特征金字塔网络（FPN）

在深入讨论分类头和回归头之前，首先简要介绍 FPN 的输出。FPN 从主干网络的不同层级提取特征，并生成多个尺度的特征图，通常标记为 P3 到 P7，对应不同的下采样率（stride）：

P3: 下采样率 8，尺寸为 ( $H8×W8×256\frac{H}{8} \times \frac{W}{8} \times 256$ )
P4: 下采样率 16，尺寸为 ( $H16×W16×256\frac{H}{16} \times \frac{W}{16} \times 256$ )
P5: 下采样率 32，尺寸为 ( $H32×W32×256\frac{H}{32} \times \frac{W}{32} \times 256$ )
P6: 下采样率 64，尺寸为 ( $H64×W64×256\frac{H}{64} \times \frac{W}{64} \times 256$ )
P7: 下采样率 128，尺寸为 ( $H128×W128×256\frac{H}{128} \times \frac{W}{128} \times 256$ )

其中，( H ) 和 ( W ) 分别为输入图像的高度和宽度。

分类头和回归头的网络结构

RetinaNet 的分类头和回归头结构基本相同，均由多个卷积层堆叠而成，但在最后的输出层有所不同。以下将分别详细介绍这两个头部的结构及其每一层的输入输出尺寸。

分类头（Classification Head）

分类头的任务是对每个锚框进行类别预测。其结构如下：

共享卷积层（Shared Convolutional Layers）:
- 层 1: 3x3 卷积，输入通道数 256，输出通道数 256，步幅 1，填充 1
- 层 2: 3x3 卷积，输入通道数 256，输出通道数 256，步幅 1，填充 1
- 层 3: 3x3 卷积，输入通道数 256，输出通道数 256，步幅 1，填充 1
- 层 4: 3x3 卷积，输入通道数 256，输出通道数 256，步幅 1，填充 1
每一层后均接 ReLU 激活函数。
分类卷积层（Classification Convolutional Layer）:
- 3x3 卷积，输入通道数 256，输出通道数 ( $\times C$ )，步幅 1，填充 1
其中：
- ( K ) 为每个位置的锚框数量（通常为 9）。
- ( C ) 为类别数量（不包括背景类）。
输出层:
- 最终输出通过 sigmoid 激活函数，生成每个锚框对应的类别概率。

输入输出尺寸示例（以 P3 为例，假设输入尺寸为 ( $H8×W8×256\frac{H}{8} \times \frac{W}{8} \times 256$ )：

层级	输入尺寸	卷积参数	输出尺寸
共享层 1	( $H8×W8×256\frac{H}{8} \times \frac{W}{8} \times 256$ )	3x3, stride=1, padding=1, 256 通道	( $H8×W8×256\frac{H}{8} \times \frac{W}{8} \times 256$