1. 摘要
利用DNN来做目标检测,因为现在的CNN等深度学习在识别上面做的还挺好,但是在目标检测(目标检测 = 目标识别 +目标定位)上面(CNN在目标检测中没有取得好成绩是本篇论文2013年发表时的情况),好像没有特别突出的结果。本文中作者把目标检测看做一个回归问题,回归目标窗口BoundingBox)的位置,寻找一张图片当中目标类别和目标出现的位置。
首先,作者制定了一个基于DNN的回归方法,它的输出是对象Bounding Boxes的二值masks;其次,利用一个简单的Bounding Boxes从这些masks中推理提取出检测对象;最后,在全图以及少数修剪后的大图上进行调整,从而提高定位的精度。下图是基于DNNs进行对象检测的原理图(Figure 1)以及微调步骤图(Figure 2)。
2. 主要内容
解决的问题:
论文的这个部分主要对三个具有挑战性的问题进行分析和解决。第一,模型输出的单个Object Mask无法有效地对相互靠近的歧义Objects进行对象检测;第二,由于模型输出大小的限制,所生成的Obinary Mask的尺寸相对于原始图片显得及其小,譬如: 400×400, d=24,那么每个输出对应到原始图片的单元大小大约为 16×16,故无法精确地对对象进行定位,而在原始图片更小的时候,难度将更大;第三,受输入是整张图片的影响,尺寸比较小的Objects对Input Neurons的影响很小,从而使得识别变得困难。如下是论文所作的分析和讨论。
Multiple Masks for Robust Local