Localization
思路1:看作回归问题
首先考虑单个物体的检测,对单个物体的分类来说,已经很清楚了,在网络的最后一层加上softmax层或者multi-svm即可。对于检测问题,我们需要获得矩形边框的位置,一个简单的思路是将这个问题看作回归问题(x, y, w, h),所以很简单将分类问题的最终一层换为regression即可。
其基本思路是:
(1)训练一个分类网络(Alex net, VGG net等)
(2)在网络的最后一层附加上一个regression层
(3)用SGD和L2 loss训练regression层的参数
(4)在测试阶段同时得到物体所属的类别以及box的4个参数
而对于多个物体的检测也是类似,只是regression层输出的个数为K*4
思路2:滑动窗口
比较有名的是overfeat
将全连接层换为卷积层,更加有效
Object Detection
物体检测的难点在于不清楚图片中物体的个数,如果物体个数很多,利用localization的方法无疑是不可行的。