论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation

本文介绍了R-CNN算法,一种利用卷积神经网络提高目标检测平均准确度30%的方法。通过选择性搜索生成候选区域,用预训练的CNN提取特征,再用SVM分类,实现对物体位置和类别的精准识别。训练过程包括在ILSVRC2012上的预训练和检测任务的调整训练。R-CNN在PASCAL VOC 2010和ILSVRC2013上表现出色,添加框位置回归后效果更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Rich feature hierarchies for accurate object detection and semantic segmentation

概要

文章提出了一种目标检测算法,使得平均准确度相较于目前的最优方法相对提升了30%。该方法使用了卷积神经网络CNN来预测选取的区域从而定位和分割检测目标。当标记的训练数据较少时,该方法可以先在辅助数据集上进行有监督的预训练,再到目标数据集进行调整训练,使效果得到了较大提升。这一方法因为使用了CNN与区域选取结合,被称为R-CNN,即Regions with CNN features。

R-CNN思想

与图像分类问题不同,目标检测问题除识别物体种类之外还需要在图像中定位物体的具体位置。过去的解决方法包括两类,即将定位视为一个回归问题,以及使用滑动窗口检测器,但这两种方法效果都并不理想。

作者提出了一种新的目标检测思想,即基于区域的识别,并在目标检测和语义分割领域都取得了不错的效果。对于每一张测试图片,算法首先生成约2000个候选区域,并对每一个区域提取固定长度的特征矢量,随后使用支持向量机(SVM)对其特征矢量进行分类。整个过程如下:

R-CNN细节

R-CNN分为三个模块:
- 候选区域生成
- 提取特征矢量的CNN网络
- 一系列针对每一类的SVM分类器

有许多方法可以实现候选区域生成,R-CNN采用了选择性搜索的方法,该方法来自《Selective search for object recognition》。

特征提取则采用了2012年提出的Alexnet网络,来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值