DSSD : Deconvolutional Single Shot Detector论文阅读笔记

DSSD结合ResNet-101与SSD,利用反卷积引入高层context信息,提升小目标检测准确性。在VOC2007test上实现81.5%mAP,超过当前SOTA模型。DSSD结构包括预测模块、反卷积模块,以沙漏结构传递context信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DSSD : Deconvolutional Single Shot Detector论文阅读笔记2017

Abstract

本文的主要贡献是提出了一种方法,将额外的context引入到SOTA通用的目标检测中。==实验中,我们首先将一种SOTA分类器(ResNet-101)和快速检测框架SSD进行组合。然后我们增加了反卷积层来引入额外的大尺度context,提升了准确率,尤其是对小目标,因此我们将模型叫做DSSD。==尽管这两个贡献在高等级上很好描述,但是naive implementation没有成功。相反我们发现,添加learned transformations的其他阶段,尤其是反卷积中的一个前馈连接模块和新的输出模块,可以使得新的模型有效,并有进一步发展的潜力。我们的DSSD,513 * 513输入的情况下,在VOC2007test取得81.5% mAP,在VOC2012test取得80.0%mAP,在COCO取得33.2% mAP,超过了目前SOTA模型R-FCN。

1. Introduction

本文主要贡献是对SOTA目标检测中加入了额外的context信息,最后结果取得了SOTA同时可以保持较快的速度。我们首先组合SSD+ResNet-101,然后引入了额外的大尺度语义信息,提升了准确率,我们的模型叫做DSSD。

最近两年,有一种研究趋势是回到滑窗方法(one-stage)。这个想法是,不再首先提出proposal然后分类,而是直接进行预测。这些方法将潜在的bbox数量减少,对每个box预测一个分数,然后预测offset,最近的YOLO和SSD都比较有效,且速度较快。

**当寻找继续提高检测准确率的方法时,明显的目标就是更好的特征网络和增加更多的context,尤其是小目标的,以及提升bbox的空间分辨率。**之前的SSD网络基于VGG,目前我们使用更好的ResNet-101。目前在检测外的领域上的研究,**出现了一种可以整合context的网络,“encoder-decoder”,网络中,中间的瓶颈层用来将输入图像的信息编码,然后后续的更大的层将它解码成一个map。这种宽-窄-宽的结构通常称为沙漏。**这些方法在语义分割和位姿识别上取得了很好的效果。

然而,这些修改,无论是使用更深层的ResNet-101还是在SSD特征成之后加入反卷积层,都无法直接使用。因此,十分有必要构建一个组合模块,来整合反卷积,和输出模块(在训练的时候隔离ResNet-101),并可以有效学习。

2. Related Work

主要的目标检测方法,包括SPPnet、Faster R-CNN、R-FCN、YOLO都使用最后一层conv的特征图来进行检测不同尺度的目标。尽管有效,使用这一层特征图检测所有可能的目标尺寸,负担较重。

通过检测多个特征图,可以提高准确率。第一类是将不同的特征图进行组合,在组合的特征图上进行检测,比如ION、HyperNet。组合的特征图有来自图像不同尺度的特征,但是组合的特征图不仅增加了模型的内存占用量,也降低了速度。

另一类是在不同尺度的特征图上进行预测,比如SSD、MS-CNN等。然而,为了检测小的目标,这些方法可能会使用更浅层的信息,这回导致在小目标上效果不佳,因为浅层的特征的语义信息较少。通过使用反卷积层和skip connections,我们可把更深层的语义信息注入,这就可以帮助检测小的目标。

还有另一条研究线路是在预测中包括语义context信息。Multi-Region CNN不止对region proposal进行池化获得特征,同样预先定义了一些区域,比如半部分、中央、边界和context区域,对这些区域进行池化。我们使用一个encoder-decoder的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值