引言
目标定位是图像处理或计算机视觉系统(如目标检测与分类,证件识别等)的第一步。任何计算机视觉系统都显性或隐性的包含着目标定位的步骤。目标定位的方法有传统方法和基于卷积神经网络的深度学习方法,本文主要讨论后者。深度学习方法有更好的鲁棒性(robustness),对各种问题实现形式统一,无需人为设定参数,无需太多的图像处理知识等优点。
问题的定义
目标定位解决的是在一张图像中找到我们感兴趣的目标的位置,用的最多是(x,y,width,height)形式的定位,除此之外还有矩形目标的四个顶点形式以便后续通过透视变化矫正形变。
解决方案
卷积层抽特征
全连层目标回归
定义欧式距离损或IoU损失函数
最小化损失函数
优化
在解决问题的前提下优化网络以实现最小的CPU消耗,最少的内存占用是至关重要的。
参考
https://github.com/tensorflow/models/tree/master/research/object_detection
https://en.wikipedia.org/wiki/Object_detection
https://www.quora.com/Convolutional-Neural-Networks-What-are-bounding-box-regressors-doing-in-Fast-RCNN
https://www.quora.com/How-can-I-design-a-bounding-box-regressor-using-CNN