目标检测:即在一张图中找出目标所在的位置,然后告诉我们目标的种类和坐标。现在目标检测主要分为单阶段和双阶段。单阶段目检测如ssd、yolo等,双阶段的如faster-r-cnn、cascade--rcnn等。本文的faster-rcnn为双阶段目标检测的代表,一般来说双阶段的目标检测效果要强于单阶段的目标检测,但是速度上和单阶段的目标检测还是有差距的。所以需要根据使用场景进行选择。
双阶段的目标检测,其中第一阶段为获取目标所在位置的候选框,即在生成的全部的anchors中选出认为是目标的框。第二阶段为在第一阶段获取到的候选框的基础上,进一步区分详细 然后获的种类以及位置精细化。
下图为使用VGG16作为 backbone的faste-r-rcnn的网络结构图。
使用 resnet50backbone的特整体提取层取resnet得layer3 ,即[3,4,6,3]的6,layer4以及avgpool作为 classifier。还有inception等backbone。

1、获取特征图、生成锚点框。绿色16*16框的上部分为特征提取网络,截止到VGG16的最后一个maxpool。特征图尺寸为原始图下采样16倍得到的,由于选择的anchor_base 比例为【0.5, 1, 2】, 大小为8,16,32,所以在一个点会生成九个锚点框如下图1所示。

本文详细介绍了Faster R-CNN——一种双阶段目标检测算法,其工作原理包括特征图生成、候选框筛选(RPN阶段)、RoI池化和Head阶段。Faster R-CNN通过VGG16或ResNet等backbone提取特征,并通过非极大值抑制(NMS)等方法优化候选框,以实现更准确的目标定位和分类。
最低0.47元/天 解锁文章
1711

被折叠的 条评论
为什么被折叠?



