目标检测(Object Detection)是计算机视觉中的一项基础任务,旨在识别图像或视频中所有目标物体的位置与类别。换句话说,它回答两个关键问题:
-
图像中有哪些物体?(分类)
-
它们在什么位置?(定位)
例如:给一张街景图,目标检测模型能指出“这里是人”、“那里是汽车”、“那边是交通灯”,并用框框圈出它们的位置。
一、目标检测的输出是什么?
目标检测模型的典型输出如下:
-
类别(如:人、猫、车)
-
置信度(模型预测该类别的概率)
-
边界框(Bounding Box):物体在图像中的矩形坐标
(x, y, width, height)
示例输出:
[
{ 类别: "person", 置信度: 0.98, 边界框: [50, 80, 120, 200] },
{ 类别: "car", 置信度: 0.92, 边界框: [200, 150, 300, 220] },
]
免费分享一套人工智能入门学习资料给大家,如果你想自学,这套资料非常全面!
关注公众号【AI技术星球】发暗号【321C】即可获取!
【人工智能自学路线图(图内推荐资源可点击内附链接直达学习)】
【AI入门必读书籍-花书、西瓜书、动手学深度学习等等...】
【机器学习经典算法视频教程+课件源码、机器学习实战项目】
【深度学习与神经网络入门教程】
【计算机视觉+NLP经典项目实战源码】
【大模型入门自学资料包】
【学术论文写作攻略工具】
二、目标检测 vs 图像分类 vs 图像分割
任务 | 目标 | 输出 |
---|---|---|
图像分类 | 识别图像中最主要的类别 | 一个类别标签 |
目标检测 | 识别所有目标物体并框出位置 | 多个框 + 类别 |
图像分割 | 精确到每个像素属于哪个物体 | 像素级别的掩码图 |
三、目标检测方法的分类
✅ 1. 两阶段方法(Two-Stage)
先找出候选区域,再分类。
-
代表模型:
-
R-CNN
-
Fast R-CNN
-
Faster R-CNN(最经典的两阶段检测器)
-
-
优点:精度高
-
缺点:速度相对慢
✅ 2. 一阶段方法(One-Stage)
直接在图像上进行检测和分类,速度快。
-
代表模型:
-
YOLO(You Only Look Once)系列
-
SSD(Single Shot MultiBox Detector)
-
RetinaNet
-
-
优点:速度快,适合实时检测
-
缺点:早期版本精度略低,但已大幅提升
四、目标检测的关键技术
技术模块 | 功能 |
---|---|
卷积神经网络(CNN) | 提取图像特征 |
Anchor Boxes | 预定义的边界框,用于预测目标 |
非极大值抑制(NMS) | 删除重复框,保留最佳检测结果 |
多尺度检测 | 识别不同大小的物体 |
注意力机制 / Transformer | 提高模型对关键区域的关注(如 DETR) |
五、主流目标检测模型对比
模型 | 类型 | 精度 | 速度 | 特点 |
---|---|---|---|---|
Faster R-CNN | 两阶段 | 高 | 中 | 准确但较慢 |
YOLOv5/v8 | 一阶段 | 高 | 高 | 实时应用热门选择 |
SSD | 一阶段 | 中 | 高 | 较早的轻量模型 |
RetinaNet | 一阶段 | 高 | 中 | 使用 Focal Loss 抑制背景干扰 |
DETR | Transformer | 高 | 慢 | 无需 anchor,结构新颖 |
六、应用场景
-
🚗 自动驾驶(检测车辆、行人、交通标志)
-
📷 安防监控(识别入侵者、人群密度、异常行为)
-
📦 工业检测(定位产品缺陷、自动分拣)
-
🧬 医疗影像分析(检测肿瘤、器官)
-
📱 移动端应用(AR、人脸识别、拍照辅助)
-
🛒 零售分析(顾客轨迹分析、商品识别)
七、总结
目标检测是让计算机“看见并理解图像中每个物体”的关键技术。相比图像分类,它不仅告诉你图像里有什么,还告诉你在哪儿。它结合了图像识别与空间定位的能力,是许多智能视觉系统的基础。随着 YOLO、DETR 等模型的发展,目标检测正在向更快、更准、更智能的方向持续进化,广泛应用于工业、交通、安全、医疗等实际场景中。