YOLOv5 （You Only Look Once）全面介绍与使用指南

原创

已于 2025-04-29 00:03:31 修改 · 1.9k 阅读

·

23

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2025-04-25 18:49:00 首次发布

一、YOLOv5 简介

1.1 什么是 YOLOv5？

YOLOv5 是由 Ultralytics 团队在 2020 年基于 PyTorch 框架开发的目标检测算法，属于 YOLO（You Only Look Once）系列。它基于 YOLOv3 和 YOLOv4 的思想，通过工程优化和现代化设计，提供了高效、易用、模块化的目标检测解决方案。YOLOv5 的核心特点是：

单阶段检测：通过一次前向传播同时预测目标的边界框（Bounding Box）和类别概率，速度快，适合实时应用。
多种模型规模：提供 YOLOv5s（小型）、YOLOv5m（中型）、YOLOv5l（大型）、YOLOv5x（超大型），满足不同硬件需求。
开源与易用：代码托管在 GitHub（https://github.com/ultralytics/yolov5），文档完善，社区活跃。

1.2 为什么选择 YOLOv5？

高效性：在精度和速度之间平衡良好，适合从嵌入式设备到高性能服务器的多种场景。
易上手：提供预训练模型和简单脚本，初学者也能快速运行。
灵活性：支持自定义数据集、多种数据增强、模型导出（如 ONNX、TensorRT）以及跨平台部署。

1.3 应用场景

YOLOv5 广泛应用于：

自动驾驶（检测行人、车辆）
安防监控（异常行为检测）
医疗影像（病灶检测）
工业检测（缺陷识别）
农业（作物监测）

二、YOLOv5 核心原理

为了更好地理解如何使用 YOLOv5，先简要介绍其工作原理。

2.1 目标检测任务

目标检测的目标是：

定位：找到目标的位置（用边界框表示，包含中心坐标 (x, y)、宽高 (w, h)）。
分类：识别目标的类别（如“人”、“车”）。
置信度：判断边界框是否包含目标的概率。

2.2 YOLOv5 工作流程

YOLOv5 将图像分为 S×S 的网格，每个网格预测多个边界框（Anchor Boxes），每个边界框包含：

坐标 (x, y, w, h)
置信度（Objectness Score）
类别概率（属于每个类别的概率）

具体步骤：

输入图像：缩放到固定大小（如 640x640）。
特征提取：通过骨干网络（Backbone）提取多尺度特征。
特征融合：通过颈部网络（Neck）融合特征，生成适合检测的特征图。
预测：通过头部网络（Head）预测边界框、置信度和类别。
后处理：使用非极大值抑制（NMS）去除冗余边界框，输出最终结果。

2.3 关键技术

Anchor Boxes：预定义的边界框尺寸，通过 K-Means 聚类生成，适应不同目标大小。
多尺度预测：在三个特征图尺度（小、中、大）上预测，分别检测小、中、大目标。
损失函数：
- CIoU Loss：优化边界框回归。
- BCE Loss：优化置信度和分类。

三、YOLOv5 网络架构

YOLOv5 的架构分为三部分，理解这些模块有助于调试和优化模型。

3.1 Backbone（骨干网络）

功能：提取图像特征。
结构：使用 CSPDarknet（Cross Stage Partial Darknet），通过 C3 模块（结合卷积和残差连接）提高效率。
特点：支持不同深度和宽度的模型（s、m、l、x）。

3.2 Neck（颈部网络）

功能：融合多尺度特征。
结构：
- SPP（Spatial Pyramid Pooling）：通过多尺度池化增强对不同尺寸目标的适应性。
- PANet（Path Aggregation Network）：自底向上和自顶向下的特征融合，结合低层次细节和高层次语义。

3.3 Head（头部网络）

功能：生成最终预测。
结

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱看烟花的码农 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。