一、R-CNN
1.算法流程:
- 采用selective search生成region proposal(约2千),由于region proposal尺寸大小不一,需要reshape到227*227。
- 将每个region proposal 送入CNN网络中提取特征向量。
- 将提取到的特征向量送入SVM分类器,每个类别对应一个SVM。
- 对每一类目标,使用一个回归器精修候选框的位置。
2.网络结构
二、SPPNet
1.算法流程:
- 采用selective search生成region proposal(约2千),
- 特征提取。将整幅图片输入CNN中,得到feature maps,然后在feature maps上找到原图对应的候选框区域patch,再将此pacth输入到SPP layer,输出固定长度的特征向量。将提取到的特征向量送入SVM分类器,每个类别对应一个SVM。
- 采用SVM算法对特征向量进行分类识别。
2.SPP layer
黑色图片代表卷积之后的特征图,接着以不同大小的块来提取特征,分别是4*4,2*2,1*1,将这三张网格放到下面这张特征图上,就可以得到16+4+1=21种不同的块(Spatial bins)。从这21个块中,每个块提取出一个最大值,这样得到21*256维特征。这种以不同的的大小各自的组合方式来池化的过程就是空间金字塔池化(SPP)。
3.改进
(1)网络输入的是任意大小的图片
(2)在卷积后的feature map上找对应的候选框,节省大量计算。