图像分割——YOLO(You Only Look Once: Unified, Real-Time Object Detection)

1.基本思路

相比于 R-CNN 系列的方法,YOLO提供了另外一种思路:
将 Object Detection(目标检测) 的问题转化成一个 Regression 问题。给定输入图像,直接在图像的多个位置上回归出目标的bounding box以及其分类类别。

2.总体框架示意图

在这里插入图片描述
流程如下:
将图像划分为ss个网格,每个网格检测对应的一个物体
每个网格训练和预测B个边界框,每个边界框有五个参数,中心线位置x,y, 宽和高w,h,和置信度评分(置信度评分反映了包含某物体的置信度Pr(Object) 和预测的准确度IOU(pred|truth),同时会预测存在物体的情况下该物体属于某一类的后验概率Pr(Class_i|Object)。)
假定一共有C类物体,那么每一个网格只预测一次C类物体的条件类概率Pr(Class_i|Object), i=1,2,…,C;每一个网格预测B个bounding box的位置。即这B个bounding box共享一套条件类概率Pr(Class_i|Object), i=1,2,…,C。基于计算得到的Pr(Class_i|Object),在测试时可以计算某个bounding box类相关置信度:Pr(Class_i|Object)Pr(Object)IOU(pred|truth)=Pr(Class_i)IOU(pred|truth)。如果将输入图像划分为77网格(S=7),每个网格预测2个bounding box (B=2),有20类待检测的目标(C=20),则相当于最终预测一个长度为SS(B
5+C)=7730的向量,从而完成检测+识别任务,

2.2 缺点:

虽然每个格子可以预测B个bounding box,但是最终只选择只选择IOU最高的bounding box作为物体检测输出,即每个格子最多只预测出一个物体。当物体占画面比例较小,如图像中包含畜群或鸟群时,每个格子包含多个物体,但却只能检测出其中一个。这是YOLO方法的一个缺陷。

2.3与fater RCNN的区别:

之前faster RCNN是先分两步,先提取region proposal,也就是判断是前景还是背景的问题,之后再分类,具体看前景是什么东西。而YOLO直接通过regression一次既产生坐标,又产生每种类别的概率。

### 关于YOLO V1论文PDF下载 YOLO (You Only Look Once) 是一种实时目标检测算法,其首个版本由 Joseph Redmon 等人在2015年提出[^4]。该论文的全名是 **"You Only Look Once: Unified, Real-Time Object Detection"**,并被提交至 CVPR 2016 大会发表。 要获取 YOLO V1 的 PDF 文件,可以通过以下几种方式: #### 官方资源 - 如果您有访问学术数据库的权利(例如 IEEE Xplore 或 ACM Digital Library),可以直接通过这些平台搜索论文标题 “You Only Look Once: Unified, Real-Time Object Detection”,通常能够找到官方发布的 PDF 版本。 #### 开放存取网站 - 可以尝试在 arXiv 上查找这篇论文。Joseph Redmon 将许多研究工作发布到 arXiv 平台上,因此可以在 https://arxiv.org/ 输入关键词或作者名称进行检索[^5]。 #### 学术搜索引擎 - 利用 Google Scholar (https://scholar.google.com/)输入完整的论文标题或者部分关键字如 "YOLO unified real-time object detection" 进行查询。有时会出现免费链接指向预印本或其他开放源文件。 #### 社区分享站点 - 部分技术爱好者可能会上传高质量扫描件或电子档至 GitHub、ResearchGate 等社交科研网络上供同行学习交流之用,请注意版权规定勿用于商业用途之外的目的。 以下是实现简单的目标检测代码片段作为补充说明: ```python import torch from torchvision import models # 加载预训练模型 model = models.detection.fasterrcnn_resnet50_fpn(pretrained=True) # 设置为评估模式 model.eval() # 假设 img 已经准备好 img_tensor = ... # 转换成 tensor 类型 prediction = model([img_tensor]) print(prediction) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值