Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。同样使用VGG16作为网络的backbone,与R-CNN相 比训练时间快9倍,测试推理时间快213倍,准确率从62%提升至66%(再Pascal VOC数据集上)。
Fast R-CNN算法流程可分为3个步骤
1、一张图像生成1K^2K个候选区域(使用Selective Search方法)
2、将图像输入网络得到相应的特征图,将SS算法生成的候选框投影到特征图上获得相应的特征矩阵
3、将每个特征矩阵通过ROI pool ing层缩放到7x7大小的特征图,接着将特征图展平通过一系列全连接层得到预测结果
Fast R-CNN与R-CNN的不同如下
分类器
输出N+1个类别的概率(N为检测目标的种类, 1为背景)共N+1个节点
边界框回归器
输出对应N+1个类别的候选边界框回归参数(dx, dy, dw, dh),共(N+1)x4个节点
会把橙色框回归到红色框位置去。
Multi-task loss
即,当预测类别正确时u为1,否则为0,此时该项边界框回归损失为0。
Fast R-CNN框架
Cross Entropy Loss交叉熵损失
假设真是标签的one-hot编码是:[0, 0,..., 1,..., 0],预测的softmax的概率为[0.1, 0.3,...,0.4,...,0.1]
则Loss = -log(0.4)
参考:https://www.cnblogs.com/wangguchangqing/category/1372618.html