YOLOv5 的新手入门教程！！！

最新推荐文章于 2025-12-06 15:19:30 发布

原创最新推荐文章于 2025-12-06 15:19:30 发布 · 465 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#php #开发语言

部署运行你感兴趣的模型镜像

新手通关 YOLOv5 结构：从 "看明白" 到 "拆透彻"

对于 YOLOv5 新手来说，如果你直接啃源码往往陷入 "只见函数，不见结构" 的困境。这份总结以 "可视化破冰→核心模块拆解→学习方法论" 为脉络，把复杂的网络结构拆成新手能轻松消化的知识点，帮你快速建立对 YOLOv5 的整体认知。

第一步：破冰！用可视化 "看穿" 网络骨架

对着models/yolo.py里的函数定义发呆，是每个新手的必经之路。想要快速分清 backbone、neck、head，Netron+ONNX 可视化是最直接的 "作弊神器"，3 步就能让网络结构直观呈现。

可视化操作流程

装依赖：执行pip install onnx，ONNX 负责将 YOLOv5 的.pt模型转换成可可视化的格式，解决原模型无法清晰展示结构的问题。
转模型：运行源码自带的转换脚本python export.py --weights yolov5s.pt --include onnx，生成yolov5s.onnx文件（以轻量快速的 yolov5s 为例）。
看结构：打开 Netron 在线版，拖拽.onnx文件即可。从输入到输出的完整链路一目了然，Focus、Bottleneck 等模块清晰标注，还能展开查看卷积核大小、输出通道数等细节。

通过可视化图，原本模糊的 "backbone→neck→head" 流程瞬间清晰，就像给网络拍了张 "X 光片"，其骨架搭建逻辑一眼就能看透。

第二步：拆解三大核心模块，搞懂 YOLOv5 的 "黑科技"

YOLOv5 的性能优势，核心依赖三个关键模块的设计。不用死记参数，理解每个模块的 "设计目的 + 工作逻辑"，就能吃透网络的精髓。

模块 1：Focus——"分块聚特征" 的提速高手

Focus 是 YOLOv5 的 "开篇操作"，核心目标是在不损失特征的前提下，降低后续计算量，让模型跑得更快。

工作逻辑：分块→拼接→卷积

以 640×640×3（宽 × 高 × 通道）的输入图像为例：

分块：按 "间隔 1 像素" 取样，将 640×640 的图像拆成 4 个 320×320 的小图。
拼接：4 个小图沿通道维度拼接，通道数从 3 变成 3×4=12，特征图尺寸变为 320×320×12。
卷积：通过 1×1 卷积将通道数从 12 压缩到 64，最终输出 320×320×64 的特征图。

设计优势：计算量锐减，精度不丢

直接用 3×3 卷积将 640×640×3 降维到 320×320×64，计算量为(3×3×3)×320×320×64；而 Focus 分块后计算量仅为(1×1×12)×320×320×64，大幅减少冗余计算。同时，分块取样能保留原始像素的细节信息，实验证明 AP（平均精度）无损失，实现 "提速不丢分"。

模块 2：Bottleneck CSP——"轻量高效" 的特征提取器

Bottleneck CSP 在 YOLOv5 中无处不在，backbone 里的BottleneckCSP(128,128) x3、neck 里的BottleneckCSP(512,512) x9，其核心是拆分特征、减少冗余，让特征提取更轻量、更精准。

工作逻辑：分一半→走两路→再合并

CSP（Cross Stage Partial）的核心是 "分块处理"，流程如下：

分块：将输入特征图按通道维度拆成两等份，比如 256 通道拆成两个 128 通道。
两路计算：
- 主路：其中一份特征图经过多次 Bottleneck 残差块（1×1 降维→3×3 提特征→1×1 升维），叠加次数根据位置需求调整。
- shortcut 路：另一份特征图不做复杂处理，直接保留原始特征。
合并：两路特征图沿通道维度拼接，再通过 1×1 卷积统一通道数，输出最终特征。

设计优势：减计算、保细节

降低计算成本：shortcut 路无需经过残差块，计算量比全残差结构减少一半，有效降低显存占用。
保留关键特征：主路负责提取复杂语义特征，shortcut 路保留原始细节特征，两者融合后，特征更全面，尤其对小目标检测友好。
灵活适配需求：backbone 需初步提特征，故叠加次数少（如 x3）；neck 需深度融合多尺度特征，故叠加次数多（如 x9）。

模块 3：PAN——"双向奔赴" 的多尺度特征融合

YOLOv5 能同时精准检测大、中、小目标，关键在于 PAN（Path Aggregation Network）结构。它在 YOLOv3 FPN"自顶向下" 传递高层语义特征的基础上，增加了 "自底向上" 的底层细节传递，实现双向特征融合。

工作逻辑：三大尺度特征的 "双向互补"

结合可视化图，三个尺度特征图的融合逻辑清晰可见：

底层特征（52×52）：负责检测小目标，从 backbone 输出后经 Bottleneck CSP 处理，直接传递到 neck 顶层，补充小目标的边缘、纹理等细节信息。
中层特征（26×26）：负责检测中目标，既接收高层传来的语义特征（如 "这是一个人"），又向底层传递细节特征，实现 "语义 + 细节" 双重加持。
高层特征（13×13）：负责检测大目标，携带 "这是一辆车" 等高层语义信息，向下传递给中层，同时接收底层细节特征，提升大目标的定位精度。

实战验证：小目标检测能力显著提升

在口罩检测实验中，仅保留 FPN 时，远处行人的小口罩漏检率高达 15%；加入 PAN 后，漏检率明显下降 —— 底层细节特征的补充，让模型真正 "看见" 了小目标。

新手学习方法论：两步吃透 YOLOv5 结构

不用纠结源码里的每一行代码，按 "先看后拆" 的路径学习，效率翻倍。

先 "看" 清全局：用 Netron+ONNX 可视化网络，明确 backbone（特征提取）、neck（特征融合）、head（目标预测）的整体流程，定位每个核心模块的位置。
再 "拆" 透核心：聚焦 Focus、Bottleneck CSP、PAN 三个模块，重点理解 "分块"" 拼接 ""双向传递" 的设计逻辑，搞懂 "为什么这么设计" 比记参数更重要。

当你能在源码中一眼认出 "这里是 Focus 分块"" 这里是 CSP 拆分特征 ""这里是 PAN 融合特征" 时，就真正实现了从 "跑通代码" 到 "理解原理" 的跨越。后续可尝试调整模块参数（如 Bottleneck 叠加次数），通过实验验证对检测精度的影响，在实践中深化理解。希望各位早日吃透~~886

您可能感兴趣的与本文相关的镜像