深度网络中的目标检测算法YOLO系列-YOLOv1论文理解

一、概述

对于之前的目标检测方法,通常都是转换为一个分类问题。YOLO将检测看作一个回归问题(regression problem)。
输入图像,仅仅经过一个深度网络,直接预测bounding boxes,以及所属类别的概率。其特点:快。

二、网络结构

利用整张图像作为网络的输入,直接在输出层回归bounding box的位置和bounding box所属的类别。

  1. 将一幅图像分成S*S个网格(gird cell)。如果某个目标的中心落在这个网格中,则这个网格就负责预测这个object。

  2. 每个网格预测B个bounding box,每个bbox除了要回归自身的位置之外,还要附带预测一个confidence值(置信度)。

  3. confidence 代表了所预测的box中含有object的置信度(概率)和这个box预测的有多准两重信息,
    计算公式:confidence = Pr(object)* IOU(torch / pred)
    所以,在gird cell中没有对象,那么confidence为0;如果有对象,就是gt的IOU值。

  4. 每个bounding box要预测(x,y,w,h)和confidence 共五个值。

  5. 每个网格还有预测一个class类别信息。这是一个条件概率,在含有对象情况下,所属某类对象的概率。

    class信息是针对每个网格的,confidence信息是针对每个bbox的。
    

三、输出

对于SS个网格,每个网格要预测B个bounding boxes,还要预测C个categories(类别)。输出就是SS*(5*B+C)的一个tensor。

四、YOLO的缺点

  1. 因为每个gird cell 中只能预测两个bboxes和一个类别,这种太强的空间约束,限制了YOLO对与相邻物体的检测能力,一旦相邻物体数量过多,YOLO就不行了。
  2. 对于图像中,同一类物体出现新的,不常见的宽高比时,泛化能力较差。
  3. 定位不准确。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值