-
R-CNN
图1.R-CNN模型 使用启发式搜索算法来选择锚框;
使用预训练模型来对每个锚框抽取特征;
训练一个SVM来对类别分类;
训练一个线性回归模型来预测边缘框偏移。
-
兴趣区域(RoI)池化层
给定一个锚框,均匀分割成 n × m n \times m n×m块,输出每块里的最大值;
不管锚框多大,总是输出 n m nm nm个值。
图2.一个2 x 2的兴趣区域汇聚层 -
Fast R-CNN
图3.Fast R-CNN模型 使用CNN对图片抽取特征;
使用Selective search基于原始图片搜索一些锚框;
将搜索到的锚框等比例映射到经过CNN之后的特征上面;
使用RoI池化层对每个锚框生成固定长度特征。
-
Faster R-CNN
图4.Faster R-CNN模型 使用一个区域提议网络来替代启发式搜索来获得更好的锚框。
-
Mask R-CNN
图5.Mask R-CNN模型 如果有像素级别的标号,使用FCN来利用这些信息。
-
单发多框检测(SSD)
图6.SSD模型主要由一个基础网络块和若干多尺度特征块串联而成 对每个像素,生成多个以它为中心的锚框;
一个基础网络来抽取特征,然后多个卷积层块来减半高宽;
在每段都生成锚框:底部段来拟合小物体,顶部段来拟合大物体;
对每个锚框预测类别和边缘框。
-
YOLO
SSD中锚框大量重叠,因此浪费了很多计算;
YOLO将图片均匀分成 S × S S \times S S×S个锚框;
每个锚框预测B个边缘框。