大家好,YOLO(You Only Look Once)系列模型是一类非常高效的目标检测模型。其主要特点是能够在单次前向传播中同时进行目标的定位和分类,实现实时的目标检测。
YOLO 系列模型从最初的 YOLOv1 到 YOLOv10,经过了多次迭代和改进,逐渐提高了检测的精度和速度。近期,ultralytics 团队再次更新,YOLOv11速度更快、更准确。
YOLOv1

YOLOv1架构图
2015 年,Joseph Redmon 及其团队推出了 YOLOv1(You Only Look Once version 1),这一里程碑式的实时目标检测模型彻底颠覆了传统检测方法的框架。YOLOv1 凭借其独特的设计理念——将目标检测任务转化为一个单一的回归问题,仅通过一次前向传播即可同时预测出图像中物体的边界框及其类别概率,极大地提升了检测速度与效率,为后续版本的迭代与优化奠定了坚实的基础。
这是YOLO模型的第一个版本,它将输入图像划分为7x7个网格,每个网格负责预测两个边界框和一个类别标签。YOLOv1使用一个全卷积神经网络来直接输出边界框的坐标、置信度和类别概率。YOLOv1的优点是速度快,背景误检率低,通用性强,但是缺点是对小物体和重叠物体的检测效果不好,而且只支持固定的输入分辨率。

定性结果
参考论文:You Only Look Once: Unified, Real-Time Object Detection
论文链接:https://arxiv.org/abs/1506.02640
YOLOv2
次年,该团队提出 YOLO9000,作为 YOLO 系列的第二代力作,在 V1 的基础上做了很多改进,包括使用批量归一化、锚框、维度聚类、多尺度训练和测试等技术来提高模型的精度和鲁棒性。

YOLOv2提出先验锚框
YOLOv2还可以同时检测超过9000个类别的对象,通过使用WordTree来组织不同数据集的类别标签。它的优点是精度高,速度快,可以适应不同的输入分辨率,缺点是对小物体的检测仍然不够理想,而且锚框的设置需要根据数据集进行调整。在标准的 VOC 2007 测试集上,YOLOv2 达到了 76.8% 的 mAP,比 YOLOv1 的 63.4% 有了明显提升。

最低0.47元/天 解锁文章
23万+

被折叠的 条评论
为什么被折叠?



