PyTorch深度学习实战(18)——目标检测基础
0. 前言
目标检测是计算机视觉领域中的重要任务,旨在识别图像或视频中的特定类别物体,并确定它们的位置。与图像分类任务只需判断整个图像属于哪个类别不同,目标检测还需要标记出目标在图像中的边界框。例如在自动驾驶场景中,不仅需要检测道路图像是否包含车辆、人行道和行人,还需要确定它们在图像中的位置。目标检测的应用非常广泛,包括智能监控、自动驾驶、人脸识别、物体跟踪、图像搜索等。在本节中,将介绍目标检测的相关基础,使用 ybat
标记目标对象边界框,使用选择性搜索提取区域提议,并使用交并比 (Intersection over Union
, IoU
) 和平均精度均值度量边界框预测的准确性。
1. 目标检测
1.1 基本概念
目标检测 (Object Detection
) 的目的是找出图像中所有感兴趣的目标(对象),并确定这些目标的类别和位置,是计算机视觉领域的核心问题之一。随着自动驾驶汽车、人脸检测和智能视频监控等应用的兴起,人们愈加重视更加快速、准确的目标检测系统。这些系统不仅需要对图像中的对象进行识别和分类,还需要通过在目标对象周围绘制适当的矩形框来定位图像中的每一个目标。目标检测的输出比图像分类更加复杂,可以通过下图明显看出两者之间的差别: