今天复习详细读了Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,大致简单梳理下
rcnn 到fast rcnn 到 faster rcnn演变:https://www.cnblogs.com/skyfsm/p/6806246.html
简单说就是这一类都是在一张图中取多个候选图,然后对候选图片做内容分类及类别成立概率,同时加上框的回归微调。
主要在选框(用选择性搜索)上浪费性能,每个图还要单个通过卷积,非常浪费(本质上还是一个一个图片分类和微调回归),最后还用svm来做分类,比较复杂。
所以fast统一直接全图卷积处理(之前是每张小图过一遍,几千次呀my god),选框依旧用的选择性搜索(流出坑来,不然faster rcnn怎么继续优化?),然后通过经典的ROIpooling(就是根据候选图在原图比例等比例在feature map上画框,然后等分做maxpooling 具体详见https://blog.youkuaiyun.com/u011436429/article/details/80279536)处理后进行分类回归处理
faster rcnn 则是选择性搜索太耗时,我也用神经网络替代,用一个叫RPN的网络(所以现在是RPN RCNN两个网络相辅相成,相濡以沫!),先训练取框,然后训练rcnn本体,然后再在rcnn的前卷积层保留下再训练取框,最后再微调rcnn(其实还可以继续循环迭代,不过论文说继续循环迭代下去效果没有提升)
<