ML-常见目标检测算法

最新推荐文章于 2025-05-15 11:10:33 发布

原创

最新推荐文章于 2025-05-15 11:10:33 发布 · 2.9k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #YOLO

概述

目标检测作为计算机视觉学科下一个热门研究方向，近年来和深度学习相结合，使得检测准确性和实时性均获得巨大提升。传统的目标检测算法模型主要由两部分组成，第一部分是特征提取器，第二部分是分类器，这类算法的典型代表主要有三种：Haar特征+Adaboost算法，Hog特征+Svm算法，DPM算法。近年来，由于深度学习算法的不断进步，相继发展出多种基于深度学习的目标检测算法，算法也由曾经的特征提取与分类相分离发展为将特征提取和分类及目标检测边框回归融合到一个完整的卷积神经网络中。在早期的RCNN系列算法中，包括RCNN，Fast-RCNN，Faster-RCNN，之后又有人提出实时性能更为突出的YOLO系列算法，包括YOLO，YOLOv2，在此基础上研究人员又提出SSD算法。
主流的目标检测算法主要是基于深度学习模型，其可以分成两大类：
（1）two-stage检测算法，其将检测问题划分为两个阶段，首先产生候选区域（region proposals），然后对候选区域分类（一般还需要对位置精修），这类算法的典型代表是基于region proposal的R-CNN系算法，如R-CNN，Fast R-CNN，Faster R-CNN等；
（2）one-stage检测算法，其不需要region proposal阶段，直接产生物体的类别概率和位置坐标值，比较典型的算法如YOLO和SSD。
性能指标
主要是准确度和速度。对于准确度，目标检测要考虑物体的定位准确性和分类准确度。一般情况下，two-stage算法在准确度上有优势，而one-stage算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进。Google在2017年开源了TensorFlow Object Detection API，并对主流的Faster R-CNN，R-FCN及SSD三个算法在MS COCO数据集上的性能做了细致对比（见Huang et al. 2017），如下图所示。
近期，Facebook的FAIR也开源了基于Caffe2的目标检测平台Detectron，其实现了最新的Mask R-CNN，RetinaNet等检测算法，并且给出了这些算法的Baseline Results 。不得不说，准确度（accuracy）和速度（speed）是一对矛盾体，如何更好地平衡它们一直是目标检测算法研究的一个重要方向。

数据集

目标检测常用的数据集包括PASCAL VOC，ImageNet，MS COCO等数据集，这些数据集用于研究者测试算法性能或者用于竞赛。

PASCAL VOC（The PASCAL Visual Object Classification）是目标检测，分类，分割等领域一个有名的数据集。从2005到2012年，共举办了8个不同的挑战赛。PASCAL VOC包含约10,000张带有边界框的图片用于训练和验证。但是，PASCAL VOC数据集仅包含20个类别，因此其被看成目标检测问题的一个基准数据集。
ImageNet在2013年放出了包含边界框的目标检测数据集。训练数据集包含500,000张图片，属于200类物体。由于数据集太大，训练所需计算量很大，因而很少使用。同时，由于类别数也比较多，目标检测的难度也相当大。2014 ImageNet数据集和2012 PASCAL VOC数据集的对比在这里。
另外一个有名的数据集是Microsoft公司（见T.-Y.Lin and al. 2015)建立的MS COCO（Common Objects in COntext）数据集。这个数据集用于多种竞赛：图像标题生成，目标检测，关键点检测和物体分割。对于目标检测任务，COCO共包含80个类别，每年大赛的训练和验证数据集包含超过120,000个图片，超过40,000个测试图片。测试集最近被划分为两类，一类是test-dev数据集用于研究者，一类是test-challenge数据集用于竞赛者。测试集的标签数据没有公开，以避免在测试集上过拟合。在COCO 2017 Detection Challenge中，旷视科技团队凭借提出的Light-Head R-CNN模型夺得冠军（AP为0.526 ），看来还是two-stage算法准确度更胜一筹。

参数指标

精确率（Precision）,也叫查准率，指在测试集上所有识别目标中某个指定目标所占比例；
召回率(Recall)，也叫查全率，指在测试集上某个指定目标中被正确识别的目标所占比例；
交并比（Intersection-over-Union，IoU），指预测生成的候选边框和原始标记边框之间的交叠率，即交集和并集之间的比值；平均正确率（AP）。评估定位精度IoU（Intersection over Union，介于0到1之间），其表示预测框与真实框（ground-truth box）之间的重叠程度。IoU越高，预测框的位置越准确。因而，在评估预测框时，通常会设置一个IoU阈值（如0.5），只有当预测框与真实框的IoU值大于这个阈值时，该预测框才被认定为真阳性（True Positive, TP），反之就是假阳性（False Positive，FP）