faster rcnn 是经典的 two stage 网络。其核心思想就是两部走战略:
简单点说就是:
第一步:在输入图片上获取一簇粗略的建议框
第二步:利用粗略的建议框得出精确的预测框以及种类。
稍微详细些说:
第一步:利用 backbone 网络得到 feature map ,然后在使用 RPN (Region Proposal Net)网络处理这个 feature map,初步得到粗略的建议框(前景,此时只知道框里有东西,但不知道是什么东西),并通过 NMS 算法取出前 m 个建议框。
第二步:将第一步得到的 m 个建议框的坐标(此时对应的是输入图片的坐标系)映射到 feature map 的坐标系上,然后根据映射后的坐标对 feature map 做截取,对截取后的 feature map 做 RoI Pooling(ROI Pooling 的作用是将截取结果统一到相同的尺寸),最后对ROI Pooling的数据分别做两次全连接处理,到到精确的预测框和类别信息,在通过 NMS 得到最终的检测结果。
下图是我根据 https://github.com/bubbliiiing/faster-rcnn-pytorch 的复现代码画的 faster rcnn 的详细框图,包含backbone ResNet50, RPN,分类&回归器,三个部分。


被折叠的 条评论
为什么被折叠?



