YOLO详解

1. YOLO的创新点

YOLO将物体检测作为回归问题求解。基于一个单独的end-to-end网络,完成从原始图像的输入到物体位置类别的输出。
从网络设计上,YOLO与two steps的目标检测方法如RCNN、Fast RCNN和Faster RCNN的区别如下:

  • YOLO训练和检测均是在一个单独网络中进行
    YOLO没有显示地求取region proposal的过程。而rcnn/fast rcnn 采用分离的模块(独立于网络之外的selective search方法)求取候选框(可能会包含物体的矩形区域),训练过程因此也是分成多个模块进行。Faster rcnn使用RPN(region proposal network)卷积网络替代rcnn和fast rcnn的selective
    search模块,将RPN集成到fast rcnn检测网络中,得到一个统一的检测网络。尽管RPN与fast rcnn共享卷积层,但是在模型训练过程中,需要反复训练RPN网络和fast rcnn网络(注意这两个网络核心卷积层是参数共享的)。(这段话不大懂)
  • YOLO将物体检测作为一个回归问题进行求解,输入图像经过一次inference,便能得到图像中所有物体的位置和其所属类别及相应的置信概率。而rcnn、fast rcnn和faster rcnn将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)
    在这里插入图片描述

2. 核心思想

2.1 网络定义

YOLO检测网络包括24个卷积层和2个全连接层,如下图所示。需要说明的是,YOLO的网络借鉴了GoogleNet分类网络结构,论文中给出的网络结构如下:
在这里插入图片描述
有个更好看的版本,如下:
在这里插入图片描述
从上图可以看到,YOLO的网络结构采取了GoogleNet的前20层网络,但是是经过modification的,具体是不采用inception module,而是采用1x1卷积层(此处1x1卷积层的存在是为了跨通道信息整合)+3x3卷积层简单替代。然后后面四层的卷积层是他自己加的,最后2个全连接层,最后再reshape成7x7x30的tensor。另注意,由于最后采用了全连接层,所以训练的图片和测试的图片大小要一样,都是448x448x3的彩色图。

YOLO论文中,作者还给出一个更轻快的检测网络fast YOLO,它只有9个卷积层和2个全连接层。使用titan x GPU,fast YOLO可以达到155fps的检测速度,但是mAP值也从YOLO的63.4%降到了52.7%,但却仍然远高于以往的实时物体检测方法(DPM)的mAP值。

2.2 输出表示定义

本部分给出YOLO全连接输出层的定义

YOLO将输入图像分成SxS个格子(grid),每个格子(grid)负责检测‘落入’该格子的物体。若某个物体的中心位置的坐标落入到某个格子,那么这个格子就负责检测出这个物体。如下图所示,图中物体狗的中心点(红色原点)落入第5行、第2列的格子内,所以这个格子负责预测图像中的物体狗。
在这里插入图片描述
每个格子(grid)输出B个bounding box(包含物体的矩形区域)信息,也就是(x,y,w,h,confidence),以及C个物体属于某种类别的概率信息。
Bounding box信息包含5个数据值,分别是x,y,w,h,和confidence。其中x,y是指当前格子预测得到的物体的bounding box的中心位置的坐标。w,h是bounding box的宽度和高度。注意:实际训练过程中,w和h的值使用图像的宽度和高度进行归一化到[0,1]区间内;x,y是bounding box中心位置相对于当前格子位置的偏移值,并且被归一化到[0,1]。

confidence反映当前bounding box是否包含物体以及物体位置的准确性, 请注意,是bounding box,不是所在格子(grid),这一点很重要。confidence的计算方式如下:
c o n f i d e n c e = P r ( O b j e c t ) ∗ I O U p r e d t r u t h confidence = Pr(Object) * IOU_{pred}^{truth} confidence=Pr(Object)IOUpredtruth
其中,如果bounding box包含物体,则 P r ( O b j e c t ) = 1 Pr(Object)=1 Pr(Object)=1,否则 P r ( O b j e c t ) = 0 Pr(Object)=0 Pr(Object)=0 I O U IOU IOU(intersection of union)为预测的bounding box与物体真实区域的交集面积,这个值也是在[0,1]之间的。

除了confidence之外,每一个格子(gird)还输出C个该物体属于某种类别的概率信息。也就是说,在给出 P r ( O b j e c t ) Pr(Object) Pr(Ob

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zedjay_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值