一、目标检测方法比较
二、两阶段检测器
2.1、R-CNN系列
非滑动窗口方式简单粗暴的提取窗口,而是根据相关方法进行候选框提取
根据图像分割的结果一步步合并成,并选取每个层次的分割结果产生候选框。
不需要单独用SVM单独训练每一类的分类器,实际中softmax已经效果很不错,有些情况下比SVM更好。
边框校准:线性变换的下标是候选框坐标x,y和框的大小w,h,输入是物体的特征。
例:框的很准期望模型结果为(0,0,0,0);第二张框的左边空白大不太好,则想右移25;第三张两边空白比较大,则想宽度再减小点
大约2000个候选框
速度上来说类别影响不大,说明R-CNN对类别拓展很好的适应性
2.2、 SPP-net
运用空间金字塔方法将输入都是定长的分割,对每个单元单独提取特征,则所有的输入到最后都是同一维度
通常是2的幂次进行划分,1种分割方式时是提速102倍,5种分割方式提速38倍
2.3、Fast R-CNN
边框偏离较远的部分变为一次项,防止梯度过大;
2.4、Faster R-CNN

RPN:特征框提取和分类是一个CNN模型
一个像素点上框多个候选框,假设k个,则此处有2k个得分,4k个参数左上角坐标和长宽(x,y,w,h)
ROL Pooling无法对参数(x,y,w,h)求导,所以分类的时候是无法向RPN回传的。
2.5、R-FCN
ResNet多了一层卷积和14*14
保证同位置处的pool,位置区域敏感度
2.6 FPN
保留卷积的结构,大物体在分辨率低的卷积层预测,小物体在分辨率高的卷积层预测