YOLO系列概览

最新推荐文章于 2025-12-05 17:26:41 发布

原创最新推荐文章于 2025-12-05 17:26:41 发布 · 273 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

部署运行你感兴趣的模型镜像

1.YOLO V1

采用一个24层的卷积网络加2个全连接层。

将画面分成S*S个部分，每个部分负责预测B个框，每个框有x，y，w，h，confidence（是否有目标，IOU为多少）五个预测参数。

在VOC数据集中，有20个类别。

算法中，B=2，即每个分格预测2个框。所以，最后的输出向量维度为S*S*30,30=5+5+20，最后20个参数代表属于每一个类别的概率，这个概率由预测的2个框共享。

由此，也能看出V1的一个重大缺陷：每个分格实际只可以预测一个目标，因为分类概率共享，对于目标密集的画面，预测效果不佳。

2.YOLO V2

还未学习

3.YOLO V3

采用darknet53网络，该网络是全卷积网络，没有全连接层，网络结构为几个卷积层中加入一个残差层，可以理解为卷积网络和残差网络的一种组合。

画面分成S*S个部分，每个部分负责预测B个框，每个框有x，y，w，h，confidence（是否有目标，IOU为多少）五个预测参数。

论文中，每个部分预测3个框，分类为80个类别，类别概率不共享，故输出向量维度变为：S*S*（5+80）*3=S*S*255。

最终的输出层还加入了多感受维度，类似SSD算法。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ydestspring

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【YOLO系列】网络结构图详解

BigGod139的博客

06-18

1万+

Backbone 是目标检测模型的“特征提取器”，负责从输入图像中提取不同层次的语义特征。YOLO11 的 backbone 采用多尺度特征提取设计，最终输出 P3/8、P4/16、P5/32 三种尺度的特征图（分辨率依次降低，语义信息依次增强），用于后续检测头的目标识别与定位。注释含义： (网络层数索引)-(特征金字塔级数) / (相对于输入图像的下采样倍数)

YOLO系列的学习

m0_73723097的博客

01-03

907

更快更简单：可达到45fps，远高于Faster R-CNN系列，轻松满足视频目标检测。避免产生背景错误：YOLO区域选择阶段是对整张图进行输入，上下文充分利用，不易出现错误背景信息。IOU损失定义如下：交集越大，损失越小，解决了大目标对小目标的影响YOLO11是YOLO新版本系列，在速度和精度上进行了改进。它采用更先进的网络结构和训练技巧，支持多种检测任务，包括目标检测和跟踪、实例分割、图像分类和姿态估计等。同时YOLO11优化了推理速度，使其在实时应用中表现更佳。

参与评论您还未登录，请先登录后发表或查看评论

计算机学习，yolov3模型，能识别80种类别的物体。包含权重文件，配置文件，及类别文件。可以结合opencv，进行目标检测yolov3.zip

11-11

计算机学习，yolov3模型，能识别80种类别的物体。包含权重文件，配置文件，及类别文件。可以结合opencv，进行目标检测。

yolov5 80个类别对照表

ResumeProject的博客

10-30

8040

yolov5 80个类别对照表

coco数据集80个分类是哪些_目标分类定位，实时速度检测...目标检测5大挑战与解决方案...

weixin_39976733的博客

11-28

1843

图像分类是指计算机根据图像内容对图像进行分类或分配标签，通常只需利用预先训练好的神经网络，对最后几个吞吐量层进行微调，然后就可以看到很好的结果。然而，仅在几年前，对图像中的单个目标进行分类和查找未知数量是极其困难的。现在，这项被称为目标检测的任务是可行的，甚至已经被谷歌、IBM产品化。但取得这些进展并不容易！除了图像分类的要求外，目标检测还面临着许多严峻挑战。近期发表在medium上的一篇博文，深...

[pytorch][原创]yolov5的80类别名

FL1623863129的博客

03-01

2790

提取自yolov5 3.1版本的类别名 person bicycle car motorcycle airplane bus train truck boat traffic light fire hydrant stop sign parking meter bench bird cat dog horse sheep cow elephant bear zebra giraffe backpack umbrella handbag tie suitcase frisbee skis snowbo.

Yolo 概览

Z's Palace

07-10

2075

“有时候，就要敢于背上超出自己预料的包袱，真的努力后，你会发现自己要比想象的优秀很多。” 하루하루가 지나...

YOLO发展历史概览（宗师归隐，江湖沸腾）

Dlog的博客

03-31

1016

YOLO发展历史概览（宗师归隐，江湖沸腾）

YOLO 全流程概览

ZhuBin365的博客

10-29

511

graph TDA[环境配置：安装ultralytics] --> B[数据准备：标注 & dataset.yaml]；B --> C[模型训练： yolo mode=train ...]；C --> D{训练完成}；D --> E[模型验证： yolo mode=val ...]；D --> F[模型推理： yolo mode=predict ...]；D --> G[模型导出： yolo mode=export ...]；E --> H[分析指标，迭代优化]；

YOLO系列：YOLOv3解析

shang009977的博客

10-11

305

YOLOv3作为YOLO系列的一个重要里程碑，通过引入多尺度特征融合、残差连接和改进的先验框设计，显著提高了目标检测的性能。这些改进不仅提高了检测速度，还增强了对小目标和多标签任务的处理能力，使YOLOv3成为目标检测领域的一个重要工具。

YOLO目标检测系列课程概览及其实战应用

11-23

内容概要：本文汇总了来自多个平台如 Udemy、Coursera、腾讯课堂、B站和网易云课堂关于YOLO（You Only Look Once）目标检测系列课程的内容，涵盖从理论介绍、版本更新对比、模型训练指导直到实操项目演练等多个方面...

1. YOLOv8 系列 - 经典版本 2. YOLO11 系列 - 最新版本

08-20

我们提供了两个系列的 YOLO 模型： 1. YOLOv8 系列 - 经典版本 2. YOLO11 系列 - 最新版本每个系列都包含不同大小的模型，以满足不同的性能需求。 ## YOLOv8 系列模型 ### 1. YOLOv8n (yolov8n.pt) - **大小**: ...

【人工智能】【深度学习】④ Stable Diffusion核心算法解析：从DDPM到文本生成图像的飞跃

xiezhiyi007的专栏

12-02

1383

Stable Diffusion是AI绘画领域的革命性技术，其核心基于扩散模型：通过"拆快递"式的噪声添加（前向扩散）和"拼乐高"式的逐步去噪（逆向过程），实现从噪声到图像的构建。本文用快递分拣、乐高拼装等生活化类比，解析CLIP文本编码器（翻译文字指令）、VAE（图像压缩）和U-Net（智能拼图）三大核心组件。相比传统GAN模型，它避免模式崩溃，提升语义理解能力，成为文本生成图像的黄金标准。通过代码与架构图解析，帮助开发者快速掌握这项技术的核心逻辑。

深度学习1.4-pytorch安装

诚朴勇毅

12-05

PyTorch 官方提供了几种安装方法，可以通过 pip 或 conda 进行安装。

深入浅出卷积神经网络（CNN）：从LeNet到Vision Transformer的演进及其实战应用

云雾J视界的博客

12-04

905

本文系统梳理卷积神经网络从LeNet到Vision Transformer的演进脉络，聚焦“为何选用ResNet而非VGG”这一典型面试问题，揭示其背后的技术选型逻辑。文章基于CVPR、ICLR等顶会论文及MLPerf等公开基准，深入剖析四代架构——奠基（LeNet/AlexNet）、深度爆发（VGG/ResNet）、效率觉醒（MobileNet）与注意力时代（ViT/ConvNeXt）的核心创新与工程权衡。

RNN、LSTM 区别

Bojun Jiang的博客

12-02

739

对比维度传统 RNNLSTM（长短期记忆网络）核心结构单一隐藏状态（h），无门控机制细胞状态（长期记忆）+ 隐藏状态（短期记忆）+ 3 个门控长距离依赖能力弱（梯度消失 / 爆炸，记不住长远信息）强（门控 + 细胞状态稳定传递长距离信息）参数复杂度低（结构简单，参数少）高（多了门控参数，计算量更大）训练难度易训练（参数少）但效果差（长序列）难训练（参数多、计算量大）但效果好（长序列）适用场景短序列数据（如 10 个词以内的短句、短时序）

深度学习1.1-软件安装-Anaconda软件与pyCharm软件安装

诚朴勇毅

12-03

600

为了研究深度学习与信号处理的结合，我又开始搞起了深度学习，博一的时候浅试过一次都失败了，这次打算学习一下Pytorch和一些最新的网络，好好做几篇论文。首先就是搭环境。我先安装了一个Anaconda，从网上搜了一大堆，我的理解是，Anaconda就是一个包管理器，因为pythoh版本太多了，而且要装的包也很多，各种包之间容易产生冲突，为了杜绝这个问题，我们可以安装一个Anaconda，它就像一个虚拟机，可以创建不同的操作系统，我们创建的不同任务和工程可以跑在不同的环境下。

[论文笔记] End-to-End Audiovisual Fusion with LSTMs

2302_76169191的博客

12-03

597

本文是《End-to-end visual speech recognition with LSTMs》的进阶篇。它将基于 LSTM 的端到端架构从视觉（Visual）扩展到了视听（Audiovisual）领域，并将任务从单纯的“说话内容识别”扩展到“语音识别和非语言发声分类”。

卷积神经网络（CNN）详细介绍及其原理详解（2）