目标检测系列模型发展历程

原创

已于 2024-03-28 08:45:39 修改 · 1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #人工智能 #计算机视觉

于 2024-03-27 19:52:25 首次发布

常见数据集：

VOC-->COCO

VOC数据集

特点：

发布于2005-2012年，由多个项目（如VOC2007和VOC2012）组成。
包含20个物体类别，涵盖动物、交通工具和日常物品等。
提供了物体检测、物体分类、物体分割等任务的标注。
图像数量相对较少，但提供了高质量的标注。

COCO数据集

特点：

于2014年发布，目的是推动场景理解技术的发展。
包含80个物体类别，涵盖了更多的日常物品和场景。
提供了丰富的标注，包括物体检测、关键点检测、语义分割和全景分割等。
包含超过200,000张图像，每张图像平均标注了3.5个不同的物体，图像中物体的上下文信息丰富。

模型发展：

RCNN-->Fast RCNN-->Faster RCNN-->Mask RCNN

这一系列的模型（RCNN、Fast RCNN、Faster RCNN、Mask RCNN）代表了计算机视觉特别是在物体检测和分割领域的一系列重大进展。下面，我会概述每个模型的特点、网络结构、优缺点，以及它们的发展历史。

1. RCNN（Regions with CNN features）

- 特点与网络结构：RCNN（Regions with Convolutional Neural Networks）通过结合区域提取（Region Proposal）技术和卷积神经网络（CNN）来检测图片中的物体。首先，使用选择性搜索（Selective Search）算法从图片中提取约2000个候选区域，然后将这些区域调整到固定大小，并用CNN提取特征，最后通过SVM（支持向量机）分类器对每个区域进行分类。
- 优点：提出了使用深度学习进行物体检测的新范式，大幅提升了检测精度。
- 缺点：速度慢，因为对每个候选区域独立运行CNN是非常耗时的；训练过程繁琐，包括预训练CNN、训练SVM分类器和边界框回归器。

RCNN（Regions with CNN features）算法是一种结合了区域提案（Region Proposal）和卷积神经网络（CNN）的物体检测方法。其核心步骤可以总结如下：

区域提案：首先，使用选择性搜索（Selective Search）算法在输入图像上生成大约2000个候选区域（也称为区域提案）。这些区域是图像中可能包含物体的部分。
特征提取：对于每个区域提案，将其缩放到固定大小（通常是227x227像素），然后通过预训练的卷积神经网络（如AlexNet、VGG等）运行，以提取该区域的特征。这一步骤是独立对每个区域进行的，因此是计算密集型的。
分类：提取的特征被送入一系列的支持向量机（SVM）分类器中，每个SVM分类器负责判断区域是否属于某个特定的类别（例如人、车等）。因此，对于每个类别，都有一个单独的SVM模型。
边界框回归：对于被分类器认为含有物体的区域，使用线性回归模型对其边界框（bounding box）的位置进行微调，以更精确地定位物体。这一步骤有助于改进最终的检测精度。
非极大值抑制（NMS）：对于每个类别，可能有多个区域提案被识别为包含该类别的物体，这些区域之间可能高度重叠。非极大值抑制是一种技术，用于在每个类别中只保留最佳的区域提案，即抑制（删除）所有与最高得分的区域提案重叠度较高的其他区域提案，从而减少重复检测。