RCNN
RCNN使用以下四步实现目标检测:
a. 在图像中确定约1000-2000个候选框
b. 对于每个候选框内图像块,使用深度网络提取特征
c. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类
d. 对于属于某一特征的候选框,用回归器进一步调整其位置
Fast-RCNN
1. 使用selective search算法为每一张待检测的图片提取出2000左右的候选框,这一点和RCNN相同;
2. 特征提取阶段,同样是提取出整张图片的feature map,然后将原图上的候选框映射到feature map上。然后对各个候选框对应3. 的feature map上的块做ROI pooling,提取出固定长度的特征向量;
4. 对于上一步的每一个ROI,网络输出每个类的概率和每个bounding box;
5. 最后,使用NMS算法。
Fast R-CNN的RegionProposal是在feature map之后做的。
损失函数使用了multi-task loss(多任务损失)函数,将边框回归直接加到CNN网络中训练。分类Fast R-CNN直接用softmax替代R-CNN用的SVM进行分类。