【Paper Reading】Deep Neural Networks for Object Detection

该论文探讨了如何利用深度神经网络(DNN)进行目标检测,将目标检测视为回归问题,通过预测对象边界框的二值mask来确定目标位置。论文提出了多mask策略以处理相邻对象的检测,通过不同尺度的细化处理提高定位精度。实验表明,这种方法能有效提升目标检测的准确性和鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 摘要

利用DNN来做目标检测,因为现在的CNN等深度学习在识别上面做的还挺好,但是在目标检测(目标检测 = 目标识别 +目标定位)上面(CNN在目标检测中没有取得好成绩是本篇论文2013年发表时的情况),好像没有特别突出的结果。本文中作者把目标检测看做一个回归问题,回归目标窗口BoundingBox)的位置,寻找一张图片当中目标类别和目标出现的位置。

首先,作者制定了一个基于DNN的回归方法,它的输出是对象Bounding Boxes的二值masks;其次,利用一个简单的Bounding Boxes从这些masks中推理提取出检测对象;最后,在全图以及少数修剪后的大图上进行调整,从而提高定位的精度。下图是基于DNNs进行对象检测的原理图(Figure 1)以及微调步骤图(Figure 2)。
在这里插入图片描述在这里插入图片描述

2. 主要内容

解决的问题:

论文的这个部分主要对三个具有挑战性的问题进行分析和解决。第一,模型输出的单个Object Mask无法有效地对相互靠近的歧义Objects进行对象检测;第二,由于模型输出大小的限制,所生成的Obinary Mask的尺寸相对于原始图片显得及其小,譬如: 400×400, d=24,那么每个输出对应到原始图片的单元大小大约为 16×16,故无法精确地对对象进行定位,而在原始图片更小的时候,难度将更大;第三,受输入是整张图片的影响,尺寸比较小的Objects对Input Neurons的影响很小,从而使得识别变得困难。如下是论文所作的分析和讨论。

Multiple Masks for Robust Local

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值