【论文阅读】目标检测--Faster R-CNN 论文笔记(翻译+理解)


论文地址: https://arxiv.org/abs/1506.01497

摘要

最先进的目标检测网络依赖候选区算法来预测目标的位置。SPPnet[1]和Fast R-CNN [2]等进展减少了检测网络的运行时间,使得候选区计算成为瓶颈。在这项工作中,我们引入候选区生成网络(RPN),该网络与检测网络共享完整图像的卷积特征,从而实现了几乎无成本的区域建议。RPN是一个全卷积网络,它同时在每个位置预测目标边界和目标性评分。RPN经过端到端训练,生成高质量的候选框,再输入Fast R-CNN进行检测。我们进一步通过共享卷积特征将RPN和Fast R-CNN合并为一个统一的网络——使用最近流行的“注意力”机制术语,RPN组件告诉这个统一网络该关注哪里。对于VGG-16模型[3],我们的检测系统在GPU上达到5fps的帧率(包括所有步骤),同时在PASCAL VOC 2007、2012和MS COCO数据集上取得了最高目标检测精度,每张图像仅用300个候选框。在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN是多个赛道中获得第一名的基础。代码已公开发布。

1 引言

目标检测的最新进展得益于候选区生成算法(例如SS算法[4])和基于区域的卷积神经网络(R-CNNs)[5]的成功。尽管最初提出的基于区域的CNN计算开销较大[5],但通过在不同候选框之间共享卷积操作,计算成本大幅下降[1][2]。最新版本的Fast R-CNN[2]在忽略候选区生成时间开销时,使用VGG网络[3],实现了近实时的处理速度。目前,候选区生成算法成为目标检测系统的计算瓶颈。

候选区生成算法通常依赖于易于获取的特征和经济的推理方案。选择性搜索(Selective Search)[4]是最受欢迎的方法之一,它基于工程上的低级特征贪婪地合并超像素。然而,与高效的检测网络[2]相比,选择性搜索的速度要慢一个数量级,在CPU实现中,每张图片需要2秒。EdgeBoxes[6]目前在候选框质量和速度之间达到了最佳平衡,每张图片仅需0.2秒。然而,候选区生成步骤仍然消耗着与检测网络相同甚至更多的运行时间。

可以注意到,快速的基于区域的CNN(如Fast R-CNN)利用了GPU,而研究中使用的候选区生成方法则是在CPU上实现的,这使得运行时间的比较不公平。加速候选区生成计算的一个显而易见方法是将其重新实现为GPU版本。这可能是一个有效的工程解决方案,但重新实现忽略了下游的检测网络,因此错失了共享计算的重要机会。

在本文中,我们展示了一种算法上的变化——利用深度卷积神经网络计算候选区域——一个优雅且有效的解决方案,在给定检测网络的计算时,候选区域计算几乎没有消耗额外的成本。为此,我们提出了新颖的候选区生成网络(RPN),它与最先进的目标检测网络[1][2]共享卷积层。通过在测试时共享卷积计算,候选区生成计算的成本非常小(例如,每张图像约10毫秒)。

我们的观察是,像Fast R-CNN这样的基于区域的检测器使用的卷积特征图,也可以用于生成候选区域。在这些卷积特征图的基础上,我们通过增加一些额外的卷积层构建了一个RPN,它同时计算每个位置上的区域边界回归和目标性评分。RPN因此是一种全卷积网络(FCN)[7],并且可以专门为生成候选区域任务进行端到端的训练。

RPN(候选区生成网络)被设计为能够高效地预测具有广泛尺度和长宽比的候选区域。与现有的基于图像金字塔(图1a)或滤波器金字塔(图1b)的方法[1][2][8][9]不同,我们引入了新的“锚框”作为多尺度和多长宽比的参考。我们的方案可以看作是一种回归参考的金字塔(图1c),它避免了枚举不同尺度或长宽比的图像或滤波器。这种模型在使用单尺度图像进行训练和测试时表现良好,从而提高了运行速度。
在这里插入图片描述
图1. 处理多尺度和不同大小的不同方案。(a) 构建图像和特征图的金字塔,并在所有尺度上运行分类器。(b) 在特征图上运行多尺度/多尺寸的滤波器金字塔。© 我们在回归函数中使用参考框的金字塔。

为了将RPN与Fast R-CNN[2]目标检测网络统一,我们提出了一种训练方案,该方案交替进行候选区生成任务的微调和保持候选区不变,进行目标检测任务的微调。这个方案能够快速收敛,并且生成一个在两个任务之间共享卷积特征的统一网络。(自从本论文的会议版本[10]发布以来,我们还发现,RPN可以与Fast R-CNN网络联合训练,从而减少训练时间。)

我们在PASCAL VOC检测基准[11]上全面评估了我们的方法,结果显示,RPNs+Fast R-CNN比Selective Search + Fast R-CNN基线模型具有更高的检测准确度。同时,我们的方法在测试时几乎免除了Selective Search的所有计算负担——候选区的有效运行时间仅为10毫秒。即使用开销大的VGG模型,我们的检测方法在GPU上的帧率仍为5帧每秒(包括所有步骤),因此在速度和准确性方面都是一个实用的目标检测系统。我们还报告了在MS COCO数据集[12]上的结果,并研究了使用COCO数据对PASCAL VOC的改进。代码已公开发布,链接为:https://github.com/shaoqingren/faster_rcnn(MATLAB版)和https://github.com/rbgirshick/py-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值