PyTorch 深度学习实战（29）：目标检测与 YOLOv12 实战

最新推荐文章于 2025-04-24 16:47:26 发布

进取星辰

最新推荐文章于 2025-04-24 16:47:26 发布

阅读量1.4k

点赞数 36

分类专栏： PyTorch 深度学习实战文章标签：深度学习 pytorch 目标检测

本文链接：https://blog.youkuaiyun.com/m0_60414444/article/details/146770235

版权

在上一篇文章中，我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测，重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型，并在 COCO 数据集上进行训练和评估。

一、YOLOv12 基础

YOLOv12 是 Ultralytics 于 2024 年 12 月发布的最新版本，相比 YOLOv11 具有革命性改进。

1. YOLOv12 的核心思想

Omni-Dimensional 动态网络：
- 根据输入分辨率动态调整网络结构
神经架构搜索 (NAS)：
- 自动优化模型架构
多模态融合：
- 支持图像、视频和点云数据联合训练
自监督预训练：
- 新增对比学习预训练模式

2. YOLOv12 的优势

指标	YOLOv11	YOLOv12	提升幅度
mAP@0.5:0.95	56.2	58.7	+4.4%
推理速度(FPS)	425	520	+22%
训练效率	1x	1.8x	+80%
能效比	1x	1.5x	+50%

3. YOLOv12 的算法流程

动态输入处理：自动适应不同分辨率输入
多模态特征提取：统一处理图像/视频/点云
NAS 优化预测头：自动调整检测头结构
自监督微调：可选对比学习增强模式
混合精度推理：自动切换 FP16/INT8

二、COCO 数据集实战

我们将使用 PyTorch 和 Ultralytics 官方实现进行 YOLOv12 的训练和评估。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

进取星辰

关注关注

36
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【YOLO部署Android安卓手机APP】YOLOv8部署到安卓实时目标检测识别——官方/自训练模型YOLOv8人脸/车辆等目标检测（可自定义更换其他目标）

嵌入式阿齐Archie

11-30

9099

本文首先讲解如何直接使用官方训练好的模型部署到手机APP进行人脸检测，然后讲解如何修改其他目标进行检测，以车辆检测为例进行讲解如何训练自己的模型部署到手机APP。本文为详细设计/配置文档，包含完整所需的环境配置搭建，项目工程配置步骤等，手把手记录使用pycharm和Android studio的工程开发过程，实现YOLO部署到安卓。实战开发，亲测无误。本项目实现了人脸检测和车辆检测，当然，以此你可以按照本项目开发步骤扩展更换为其他目标进行检测，例如更换为车牌、手势、人脸面部活动、人脸表情、火焰烟雾、行人等

PyTorch深度学习实战（22）——从零开始实现YOLO目标检测

盼小辉丶的博客

10-19

7883

YOLO (You Only Look Once) 是一种实时目标检测算法，它以其高效性和准确性而闻名。相比于传统的目标检测方法，YOLO 的主要特点是在单个前向传递中同时完成目标检测和分类，YOLO 通过全局感受野捕捉了整个图像中的上下文信息，对小尺寸物体的检测效果较好。在本节中，将介绍 YOLO 的工作原理，然后在自定义数据集上训练 YOLO 目标检测模型。

参与评论您还未登录，请先登录后发表或查看评论

目标检测：YOLOv12环境配置，超详细，适合0基础纯小白

笑脸惹桃花的博客

03-17

5992

小白也可以看懂的YOLOv12教程！ YOLOv12 是 YOLO 系列中首个打破传统基于卷积神经网络（CNN）方法的模型，它通过将注意力机制直接集成到目标检测过程中实现了这一突破。因此YOLOv12需要额外配置FlashAttention，此前的YOLO环境均不可用，需要按照最新的教程配置。此外，30系显卡以前的架构不支持较新的FlashAttention2.x，只能通过更换显卡解决。

用yolo12实现停车场车辆检测

alex1013999的博客

03-02

1094

用python调用摄像机实时视频，使用yolo12实现停车场空车位数量统计，并输出车位编号。硬件设备使用nvidia的orin avix。文章详细解读了软件的功能模块和代码实现。并给出了python的代码解释，方便读者移植。文中强调了TensorRT的优化，cudu的优化、多线程的优化等解决方案。

YOLO的演变：从YOLOv1到YOLOv12

最新发布

Aifuyao的博客

04-24

1306

通过直接回归的方式，快速获取目标的位置信息与类别分类信息，大幅降低计算量，实现了 45FPS 的检测速度，其 Fast YOLO 版本更是达到 155FPS。这些改进提高了模型的特征提取能力和检测小型重叠物体的能力，为 YOLO 系列树立了新的标杆。原来的YOLOv1直接回归预测框的坐标，由于不同物体的尺寸不同，导致YOLOv1在精确定位方面表现较差，在YOLOv2中放弃了全连接层预测边界框而采用了anchor boxes机制来预测边界框，同时去掉了一个池化层，使卷积层输出更高的分辨率。

P8：使用pytorch实现YOLOv5-C3模块

apwpasy的博客

03-07

351

本周先用pytorch来实现YOLOv5-C3的模块，提前熟悉一下YOLO，虽然YOLO各路大神版本很多，但是V5很稳定，还是很有必要学习学习的。任务是天气分类。提问：是否可以调整C3和Conv块来提高准确率？

YOLOv12—以注意力为中心的实时对象检测器

许济江

02-25

1801

本研究成功将以注意力为核心的设计引入YOLO框架，提出YOLOv12，在实时目标检测的延迟 - 精度权衡方面取得了最先进的成果。为实现高效推理，设计了新颖的网络，利用区域注意力降低计算复杂度，通过残差高效层聚合网络（R - ELAN）增强特征聚合。同时，对普通注意力机制的关键组件进行优化，使其更好地适应YOLO的实时约束，保持高速性能。通过有效结合区域注意力、R - ELAN和架构优化，YOLOv12在精度和效率上均实现了显著提升。全面的消融研究进一步验证了这些创新的有效性。

【目标检测】【YOLOv12】YOLOv12：Attention-Centric Real-Time Object Detectors

weixin_44184852的博客

02-19

3007

长期以来，增强YOLO框架的网络架构一直至关重要，但主要集中在基于CNN的改进上，尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型在速度上相匹敌。本文提出了一种以注意力为核心的YOLO框架，即YOLOv12，它在保持与之前基于CNN模型相同速度的同时，充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器，同时保持了具有竞争力的速度。

基于YOLOv5架构的口罩检测系统与深度学习实战教程（利用PyTorch实现）,基于YOLOv5的口罩检测系统，pytorch开发 ,核心关键词：YOLOv5; 口罩检测系统; pytorch开发;

01-26

本文将详细介绍如何基于YOLOv5架构和深度学习技术，利用PyTorch框架开发一个口罩检测系统。 YOLOv5是一种先进的目标检测算法，它的名称来源于“You Only Look Once”的缩写，意指在图像中仅需进行一次检测即可快速...

深度学习之目标检测--Pytorch实战

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

01-18

9867

只需要能看懂python代码，就能最快入门深度学习---目标检测。目标检测简单的玩玩儿还行，模型调优，调参，还需要一定的数学功底。通过代码来实现卷积，池化，非线性激活，正则化，归一化，能让人减少对大量数学公式的敬畏，手写神经网络也是考研复试中上机考试的压轴题，掌握搭建神经网络和如何训练模型是需要掌握的基础的

基于深度学习的自动驾驶目标检测系统：YOLOv5、YOLOv6、YOLOv7与YOLOv8实现

m0_52343631的博客

03-23

631

本项目的目标是开发一个基于YOLO系列模型的自动驾驶目标检测系统。数据集准备：使用包含交通场景的图像数据集，标注各类目标物体（如行人、其他车辆、交通标志等）。目标检测与分类：利用YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8）进行目标检测，识别并定位不同目标物体。实时检测：通过摄像头或视频流实现实时目标检测，输出目标的位置和类别。UI界面设计：设计一个简洁易用的用户界面，展示检测结果并支持用户上传图像进行检测。性能评估与报告。

铁锈检测12-YOLO（v5至v9）、COCO、CreateML、Darknet、Paligemma、TFRecord、VOC数据集合集.rar

12-04

铁锈检测12-YOLO（v5至v9）、COCO、CreateML、Darknet、Paligemma、TFRecord、VOC数据集合集.rar新腐蚀-V5 2021-09-26 8:12 PM ============================= *与您的团队在计算机视觉项目上合作 *收集和组织图像 *了解和搜索非结构化图像数据 *注释，创建数据集 *导出，训练和部署计算机视觉模型 *使用主动学习随着时间的推移改善数据集对于最先进的计算机视觉培训笔记本，您可以与此数据集一起使用该数据集包括740张图像。腐蚀以可可格式注释。将以下预处理应用于每个图像： *像素数据的自动取向（带有Exif-Arientation剥离） *调整大小为416x416（拉伸）应用以下扩展来创建每个源图像的3个版本： * -15和+15度之间的随机旋转 *在-15°至 +15°之间的随机剪切和-15°至 +15°之间的随机剪切垂直剪切

YOLOv12来了！最快的速度学习她，改进它并发表成果！赋能AI，改变世界！ [特殊字符] YOLOv12 不仅是技术的飞跃，更是推动人工智能应用的强大引擎！选择 YOLOv12，开启智能未来！

B站 Ai学术叫叫兽的文案地

02-19

2761

YOLOv12来了！最快的速度学习她，改进它并发表成果！赋能AI，改变世界！ 🌍 YOLOv12 不仅是技术的飞跃，更是推动人工智能应用的强大引擎！选择 YOLOv12，开启智能未来立即体验 YOLOv12，感受极速检测的魅力！

YOLOv12：以注意力为中心的实时目标检测器

AI浩

02-19

7952

长期以来，改进YOLO框架的网络架构一直是研究重点，但主要集中在基于CNN的改进上，尽管注意力机制已被证明在建模能力上具有显著优势。这是因为基于注意力的模型在速度上无法与基于CNN的模型相媲美。本文提出了一种以注意力为核心的YOLO框架——，它在保持与先前基于CNN模型相当速度的同时，充分利用了注意力机制的性能优势。YOLOv12在精度上超越了所有流行的实时目标检测器，同时保持了具有竞争力的速度。例如，YOLOv12-N在T4 GPU上以1.64毫秒的推理延迟实现了40.6%mAP。

YOLOv12深度测评：从创新到部署，硬件适配与YOLOv11性能全对比（附无代码流程）

CooVally_AI的博客

02-26

3033

进入【图像数据】页面，点击创建数据集，输入数据集名称、描述，选择任务类型，上传压缩包文件。无论你是AI领域的专家，还是刚刚接触机器学习的初学者，Coovally平台都能为你提供简便高效的模型训练体验。进入数据集详情页，输入任务名称，选择模型配置模版，设置实验E-poch次数，训练次数等信息，即可开始训练。通过使用Coovally平台，你可以大大缩短项目的开发周期，提高生产力，快速将你的想法转化为实际应用。模型训练完成后，可查看数据集和标签的具体信息，还能看到标签类别与真实标签、预测标签的数量，以及。

重磅来袭————YOLOv12:Attention-Centric Real-Time Object Detectors

SQingL的博客

02-20

3407

YOLOv12强势来袭！打破CNN主导，实现速度精度新高度，实时目标检测的效率之王！

CooVally_AI的博客

02-20

2005

进行了消融实验来验证区域注意的有效性，评估是在 YOLOv12-N/S/X模型上进行的，测量了GPU（CUDA）和CPU上的推理速度。调整MLP比率，进一步提升了速度和精度，去除了位置编码，并引入了大卷积核（7×7卷积），有效增强了网络对位置的感知能力，同时保持了计算效率。YOLOv12通过创新的区域注意力模块、残差层高效网络和架构优化，在精度、推理速度和计算效率上实现了突破，并挑战了基于CNN的设计在YOLO系统中的主导地位，并推动了注意力机制在实时物体检测中的集成，为未来的实时检测系统开辟了新的方向。

YOLOv12 正式发布 | 检测效果超越YOLO11！！

qq_40716944的博客

02-20

4882

提升YOLO框架的网络架构一直至关重要，尽管注意力机制在建模能力方面已被证明具有优越性，但长期以来一直专注于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以注意力为中心的YOLO框架，即YOLOv12，该框架在匹配先前基于CNN的模型速度的同时，利用了注意力机制的性能优势。YOLOv12在准确率上超越了所有流行的实时目标检测器，同时保持了有竞争力的速度。

weixin_43366149的博客

03-11

1262

yolov12安装配置以及与yolov8的对比