目标检测
单目标检测
训练思路:一般分三个阶段,先训练分类(一般是拿现成已经训练好的模型),再训练定位,再一起训练分类+定位。
Ps:目标检测中,一般不从头开始训练网络,而是使用ImageNet上预训练的模型。
多任务损失:网络训练的目标是降低总损失,所以 softmax loss 和 L2 loss 将同时减小,也可以为 softmax loss 和 L2 loss 分别设置一个权重,通过改变权重,调整 softmax loss 和 L2 loss 在总损失中所占的比重。
姿态估计:在人体上标注关键点,然后通过训练,与标答进行对比。
多目标检测
思考:神经网络的标答是预先建立好的,因为多目标检测中目标数量并不确定,输出的维度不确定,就无法建立Correct box标答,如果使用单目标检测的训练方法,无法建立多目标检测的表达,训练将不能进行。
滑动窗口
思路:将图像中所有可能的区域都给到卷积神经网络进行分类,只留下能正确分类的窗口。
注:仅当分类器速度够快的时候才能这样做,比如人脸识别时使用Adaboost进行穷举。
R-CNN
思考:针对穷举图像所有区域神经网络分类计算量大这个问题,提出了一种新的思想,先从图像中产生一些候选区域再进行分类,而不是穷举图像中所有区域。例如:区域建议 selective search。
思路:
1.利用区域建议产生感兴趣的区域。(存入硬盘)
2.对区域进行缩放。
3.将图像区域送入卷积网络(可以直接使用ResNet)进行特征提取。(存入硬盘)
4.使用支持向量机对区域进行分类,同时进行边界框回归(修正学习)。