常见数据集:
VOC-->COCO
VOC数据集
特点:
- 发布于2005-2012年,由多个项目(如VOC2007和VOC2012)组成。
- 包含20个物体类别,涵盖动物、交通工具和日常物品等。
- 提供了物体检测、物体分类、物体分割等任务的标注。
- 图像数量相对较少,但提供了高质量的标注。
COCO数据集
特点:
- 于2014年发布,目的是推动场景理解技术的发展。
- 包含80个物体类别,涵盖了更多的日常物品和场景。
- 提供了丰富的标注,包括物体检测、关键点检测、语义分割和全景分割等。
- 包含超过200,000张图像,每张图像平均标注了3.5个不同的物体,图像中物体的上下文信息丰富。
模型发展:
RCNN-->Fast RCNN-->Faster RCNN-->Mask RCNN
这一系列的模型(RCNN、Fast RCNN、Faster RCNN、Mask RCNN)代表了计算机视觉特别是在物体检测和分割领域的一系列重大进展。下面,我会概述每个模型的特点、网络结构、优缺点,以及它们的发展历史。
1. RCNN(Regions with CNN features)
- 特点与网络结构:RCNN(Regions with Convolutional Neural Networks)通过结合区域提取(Region Proposal)技术和卷积神经网络(CNN)来检测图片中的物体。首先,使用选择性搜索(Selective Search)算法从图片中提取约2000个候选区域,然后将这些区域调整到固定大小,并用CNN提取特征,最后通过SVM(支持向量机)分类器对每个区域进行分类。
- 优点:提出了使用深度学习进行物体检测的新范式,大幅提升了检测精度。
- 缺点:速度慢,因为对每个候选区域独立运行CNN是非常耗时的;训练过程繁琐,包括预训练CNN、训练SVM分类器和边界框回归器。
RCNN(Regions with CNN features)算法是一种结合了区域提案(Region Proposal)和卷积神经网络(CNN)的物体检测方法。其核心步骤可以总结如下:
-
区域提案:首先,使用选择性搜索(Selective Search)算法在输入图像上生成大约2000个候选区域(也称为区域提案)。这些区域是图像中可能包含物体的部分。
-
特征提取:对于每个区域提案,将其缩放到固定大小(通常是227x227像素),然后通过预训练的卷积神经网络(如AlexNet、VGG等)运行,以提取该区域的特征。这一步骤是独立对每个区域进行的,因此是计算密集型的。
-
分类:提取的特征被送入一系列的支持向量机(SVM)分类器中,每个SVM分类器负责判断区域是否属于某个特定的类别(例如人、车等)。因此,对于每个类别,都有一个单独的SVM模型。
-
边界框回归:对于被分类器认为含有物体的区域,使用线性回归模型对其边界框(bounding box)的位置进行微调,以更精确地定位物体。这一步骤有助于改进最终的检测精度。
-
非极大值抑制(NMS):对于每个类别,可能有多个区域提案被识别为包含该类别的物体,这些区域之间可能高度重叠。非极大值抑制是一种技术,用于在每个类别中只保留最佳的区域提案,即抑制(删除)所有与最高得分的区域提案重叠度较高的其他区域提案,从而减少重复检测。
RCNN通过这些步骤实现了当时领先的检测性能,但也因为需要对每个区域提案独立运行CNN,导致其处理速度较慢,不适合实时应用。此外,其训练过程相对复杂,需要分别训练CNN、SVM和边界框回归模型。
2. Fast RCNN
- 特点与网络结构:为了解决RCNN速度慢的问题,Fast RCNN

最低0.47元/天 解锁文章
6902

被折叠的 条评论
为什么被折叠?



