RetinaNet:目标检测的创新架构
1. 引言
在目标检测领域,RetinaNet展现出了诸多架构和损失设计上的创新。相较于YOLOv1,RetinaNet在特征提取、目标框预测以及损失函数等方面都有独特的改进,下面我们将详细探讨其各个组成部分。
2. 特征金字塔网络(Feature Pyramid Networks)
当图像通过卷积神经网络(CNN)进行处理时,最初的卷积层会捕捉到边缘和纹理等低级细节。随着网络的深入,后续层会将这些低级特征组合成具有更高语义价值的特征。与此同时,网络中的池化层会降低特征图的空间分辨率。
YOLO架构仅使用最后一层特征图进行检测,虽然能够正确识别物体,但定位精度有限。另一种思路是在每个阶段都添加检测头,但早期特征图对应的检测头虽然能较好地定位物体,但在标注物体类别时会遇到困难,因为此时图像仅经过了少数卷积层,不足以进行分类。而像“这是一朵玫瑰”这样的高级语义信息,需要经过数十层卷积层才能提取出来。
单阶段检测器(SSD)是基于在多个特征图上添加检测头的思路设计的,其作者通过将多个检测头连接到卷积栈末尾的多个特征图上,使该架构得以实现。
特征金字塔网络(FPN)则提供了一种将所有特征图进行组合的方法,使得在各个尺度上都能同时展现出良好的空间信息和语义信息。以下是FPN的工作流程:
1. 下采样路径 :卷积层逐步提炼特征图中的语义信息,池化层则降低特征图的空间维度。
2. 上采样路径 :底层包含高级语义信息的特征图通过最近邻算法进行上采样,使其能够与上层特征图逐元素相加。在横向连接中,使用
超级会员免费看
订阅专栏 解锁全文
2853

被折叠的 条评论
为什么被折叠?



