YOLO框的理解

原创已于 2022-04-28 16:37:15 修改 · 1.7k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

于 2022-04-21 17:19:47 首次发布

本文解析了YOLO3中如何使用预先聚类的Anchor Box，并介绍了与K-means相关的方法。重点在于理解如何通过IOU指导Anchor框的调整，以提升目标检测的准确性。

部署运行你感兴趣的模型镜像

k-means聚类算法是在训练之前进行的，根据对训练集标好的真实框之间的IOU值作为指标聚类出5种不同宽高比的anchor box。

聚类出anchor box之后对其进行训练（训练并不会进行非极大值抑制，不会删除框）调整anchor的位置，使其更贴近真实框。

YOLO2 文章解读_疯子_Zhang的博客-优快云博客_yolo2

这里写图片描述

YOLO3检测的过程：将我们输入进来的图片划分成不同大小的网格，每一个网格内部都包含三个先验框，我们会对这三个先验框进行一个判别，判别它的内部是否真实的包含物体，这个物体的种类是什么，我们要怎么样对这个先验框进行调整，把它变成我们的预测框。

您可能感兴趣的与本文相关的镜像

Yolo-v5

Yolo

YOLO（You Only Look Once）是一种流行的物体检测和图像分割模型，由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出，因其高速和高精度而广受欢迎

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

androidstudiooo

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Yolov3中先验框生成

m0_56171249的博客

06-25

3196

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、K-means聚类先验框二、先验框、真实框、预测框代码总结前言看了Yolov3系列已经有段时间了，网上很多有关yolov3的讲解，在此，我将个人对预测框参数理解讲一下，如果有错误的地方，希望大家指正。提示：以下是本篇文章正文内容，下面案例可供参考一、K-means先验框 1、K-means算法简介聚类是一个将数据集中在某些方面相似的数据成员进行分类组...

YOLO-先验框/anchor(锚点)

_____

12-12

4765

什么是Anchor？

参与评论您还未登录，请先登录后发表或查看评论

YoloV3 先验框

damon93的博客

03-01

3047

YoloV3 先验框本文主要是记录在学习YoloV3模型先验框作用和生成文本参考睿智的目标检测10——先验框详解及其代码实现，这篇博客其实写的非常详细，我在此处就不再展开，仅仅写一下个人学习理解有错误的话还望不吝批评。先验框目标检测|Anchor（先验框）的作用提前在图像上预设好的不同大小，不同长宽比的框,使得模型更加容易学习使用不同尺寸和长宽比可以得到更大的交并比，就有更高的概率出现对于目标物体有良好匹配度的先验框（体现为高IoU）简单的一句话来讲，先验框就是帮助我们定好了常见目标

YOLO先验框的设计理解

lipengyu1363658871的博客

09-13

1596

5、channel_5，[20, 20]对应位置是否有物体，比如[2, 3]，第二行第三列这个特征点如果值为1，也就是在feature_map的第二行，第三列判断有一个物体，折回到原始图片就是[64, 96]这个点的周围有一个目标，其目标的大小还需要由channel_3和_4的锚框缩放倍数来确定。[batch_size, 3, 20, 20, 15]，其中[20, 20]是一个feature_map的大小，也就是[640, 640]缩小了32倍，一个特征点实际的感受野是原始图片的32*32。

yolov3 先验框讲解与代码实现

JY丫丫

07-26

9446

不同尺度先验框与目标物体大小随着输出的特征图的数量和尺度的变化，先验框的尺寸也需要相应的调整。YOLO2已经开始采用K-means聚类得到先验框的尺寸，YOLO3延续了这种方法，为每种下采样尺度设定3种先验框，总共聚类出9种尺寸的先验框。在COCO数据集这9个先验框是： (10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。分配上，在最小的13 * 13特征图上（有最大的感受野）应用较大的先验框(116

最新发布

gzq0723的博客

07-16

794

此外，我们提出了一种新颖的多尺度特征加权融合策略，通过结合快速归一化融合方法和CARAFE操作对特征图进行加权融合，精准评估每个特征的重要性，增强小目标的特征表示。首先，我们设计了空间信息感知（SIP）模块，该模块融合了空间到深度操作和大型选择性核模块，以保留小目标的细粒度特征，并整合复杂环境中的上下文信息。此外，我们设计了一种新颖的多尺度特征加权融合（MFWF）策略，用于融合多尺度特征信息，有效处理不同尺度的语义特征，减少信息丢失，提高小目标检测的鲁棒性。MFWF）策略，对不同级别的特征图进行加权融合。

精选资源

人工智能-YOLO原理理解.zip

08-30

了解YOLO的工作原理对于深入研究计算机视觉和人工智能至关重要，它不仅有助于我们理解目标检测的基本流程，还可以启发我们设计出更高效、更准确的检测算法。在实际项目中，开发者可以根据具体需求选择合适的YOLO版本...

anchor设置 yolo_目标检测中Anchor（先验框）的作用

weixin_34693059的博客

12-30

6932

目标检测网络（Faster RCNN、SSD、YOLO v2&v3等）中，均有先验框的说法，Faster RCNN中称之为anchor(锚点)，SSD称之为prior bounding box(先验框)，实际上是一个概念。Anchor设置的合理与否，极大的影响着最终模型检测性能的好坏。1. 什么是Anchor？一句话概括——提前在图像上预设好的不同大小，不同长宽比的框，先验框示意如下：同一...

yolov2先验框聚类解析2025.5.28

sinat_34897952的博客

05-28

1235

YOLOv2提出的先验框聚类方法是目标检测领域的重要创新。该方法采用K-means算法分析训练数据中目标框的尺寸分布，自动生成匹配度更高的先验框，取代传统手动设计方式。其创新点在于使用IOU作为距离度量，解决了欧氏距离对大尺寸框敏感的问题。实验表明，仅需5个聚类生成先验框即可达到比Faster R-CNN使用9个手工先验框更好的效果，平均IOU提升至61%，mAP提高了4.8%。这一数据驱动方法显著提升了检测精度和训练效率，为后续YOLO系列的发展奠定了基础。

yolov2中先验框的计算方法

AI_dataloads的博客

11-06

736

网络（Faster RCNN、SSD、YOLO v2&v3等）中，均有先验框的说法，FasterRCNN中称之为anchor(锚点)SSD称之为prior bounding box(先验框)，可以理解是一个概念。Anchor设置的合理与否，极大的影响着最终模型检测性能的好坏。同一位置设置多个不同尺度先验框。

锚框(anchor box)/先验框(prior bounding box)概念以及yolov3中的使用

weixin_62848630的博客

09-15

5521

关于先验框，有的paper(如Faster)中称之为anchor(锚点)，有的paper(如SSD)称之为prior bounding box(先验框)，实际上是一个概念。在训练的时候往往是把先验框缩放到相对于特征图的大小，在推理时会把特征图上调整后的先验框，即预测框，放大到原图大小。

YOLO模型——思想、原理以及为什么使用网格、边界框

weixin_62108939的博客

01-03

2654

提起YOLO模型，我想大部分和我一样的初学者不理解使用网格与边界框的原因。并且很多文章也只是讲清楚了流程但没讲清楚思想。本文从YOLO的思想本质为起点，详细介绍YOLO模型的原理。

YOLO V3详解(四)：进行目标检测

走在深度学习前沿的小宋

04-15

1824

在得到训练好的模型后，你就会存在新的问题：如何对目标进行检测，如何输出图像。 YOLO v3进行目标检测

【目标检测】YOLO框架原理总结

weixin_41977337的博客

12-07

3233

参考资料： YOLO主页 https://pjreddie.com/darknet/yolo/ YOLOv1 论文下载：http://arxiv.org/abs/1506.02640 代码下载：https://github.com/pjreddie/darknet YOLOv2&YOLO9000 工程代码地址：http://pjreddie.com/darknet/yolo/ 代码和预训练模型地址：http://pjreddie.com/yolo9000/ YOLOv3 代码下载：h.

YOLO4解读，边框聚类

weixin_44457930的博客

09-15

641

交集面积如何计算？先求cluster和box宽的较小值（图中为Wc），再求cluster和box的高的较小值（图中为Hb），然后再让两个较小值相乘

【YOLO模型】（3）--YOLO V2超超超超详解！！

m0_74896766的博客

10-27

2339

本篇介绍了： 1. YOLO V2使用的网络结构是使用Darknet-19作为主干网络。输入图像的大小必须满足32的倍数。 2. 先验框使用k-means聚类方法在训练集上对先验框进行聚类，分出五个先验框。改变了距离计算方式，增强边界框尺寸权重影响。 3. 中心点使用直接位置预测方法：通过sigmoid函数将中心位置点限制在一定范围内，以确保预测的边界框更加准确。 4. 由于多次池化，可能难以观测到小物体，使用多尺度融合方法，融合上下层的特征信息，提升目标检测的精度和召回率。

YOLO框架

05-31

### YOLO框架使用指南及介绍 YOLO（You Only Look Once）是一种实时目标检测框架，其核心思想是将目标检测问题转化为单一的回归问题[^1]。相比其他基于区域建议（Region Proposal）的目标检测方法，如Fast R-CNN和Faster R-CNN，YOLO在速度上具有显著优势，但早期版本在定位精度和召回率方面略逊一筹[^2]。 #### 1. YOLO框架的核心特点 - **统一检测模型**：YOLO将整个图像划分为S×S个网格，并为每个网格预测B个边界框及其置信度分数。此外，还预测了每个网格中可能存在的类别概率[^1]。 - **速度快**：YOLOv1能够在Titan X GPU上以45帧每秒的速度运行，而YOLOv2进一步优化后可以达到更高的处理速度（每秒40-60张图片），同时保持较高的识别精度（78.6%）[^3]。 - **全局理解能力**：由于YOLO在整个图像上进行预测，它能够更好地理解图像的全局上下文，从而减少背景误检的问题[^2]。 #### 2. YOLO框架的主要版本 - **YOLOv1**：首次提出YOLO框架，将目标检测问题转化为回归问题。尽管速度快，但在定位精度和召回率方面存在不足[^1]。 - **YOLOv2**：引入了Anchor Box机制、更高分辨率的训练数据以及改进的网络结构，显著提高了定位精度和召回率[^1]。 - **YOLOv3**：支持多尺度预测，适用于不同大小的目标检测，同时增强了对小目标的检测能力[^1]。 #### 3. 使用YOLO框架的基本步骤以下是使用YOLO框架进行目标检测的基本流程： ##### （1）安装Darknet YOLO框架通常基于Darknet实现。可以通过以下命令克隆Darknet仓库并编译： ```bash git clone https://github.com/pjreddie/darknet.git cd darknet make ``` ##### （2）准备配置文件和权重 - 下载YOLO的预训练权重文件，例如`yolov3.weights`或`yolov2.weights`。 - 配置文件通常位于`cfg/`目录下，例如`yolov3.cfg`或`yolov2.cfg`。 ##### （3）运行检测使用以下命令对单张图片进行目标检测： ```bash ./darknet detect cfg/yolo.cfg yolo.weights data/dog.jpg -thresh 0.5 ``` 其中，`-thresh`参数用于设置置信度阈值，低于该阈值的预测结果将被忽略[^4]。 ##### （4）实时视频检测如果需要对摄像头采集的视频进行实时检测，可以使用以下命令： ```bash ./darknet detector demo cfg/coco.data cfg/yolo.cfg yolo.weights ``` #### 4. YOLO框架的优势与局限性 - **优势**： - 实时性：YOLO框架的设计使其能够在GPU上实现高帧率的目标检测[^3]。 - 准确率：YOLOv2和YOLOv3通过引入Anchor Box和多尺度预测等技术，显著提高了检测精度[^1]。 - **局限性**： - 小目标检测能力较弱：YOLOv1和YOLOv2在检测小目标时表现不佳，这一问题在YOLOv3中得到了部分改善。 - 定位误差：相比其他基于区域建议的方法，YOLO早期版本的定位误差较高[^2]。 #### 5. 示例代码以下是一个简单的Python脚本，展示如何使用YOLOv3进行目标检测： ```python import cv2 import numpy as np # 加载YOLO模型 net = cv2.dnn.readNet("yolov3.weights", "yolov3.cfg") # 加载类别名称 with open("coco.names", "r") as f: classes = [line.strip() for line in f.readlines()] # 加载图像 image = cv2.imread("dog.jpg") height, width, _ = image.shape # 创建Blob blob = cv2.dnn.blobFromImage(image, 1/255.0, (416, 416), swapRB=True, crop=False) net.setInput(blob) # 获取输出层名称 output_layers = net.getUnconnectedOutLayersNames() layer_outputs = net.forward(output_layers) # 处理检测结果 for output in layer_outputs: for detection in output: scores = detection[5:] class_id = np.argmax(scores) confidence = scores[class_id] if confidence > 0.5: # 置信度阈值 center_x = int(detection[0] * width) center_y = int(detection[1] * height) w = int(detection[2] * width) h = int(detection[3] * height) x = int(center_x - w / 2) y = int(center_y - h / 2) cv2.rectangle(image, (x, y), (x + w, y + h), (0, 255, 0), 2) # 显示结果 cv2.imshow("Image", image) cv2.waitKey(0) cv2.destroyAllWindows() ```