一、作者简介
作者叫Joseph Redmon,在谷歌学术上搜索作者的简介。
地址:Joseph Redmon -巨人学术搜索 (cljtscd.com)
gitihub地址:github地址
作者主页:个人主页
二、YOLOV1网络结构
检测、分类、分割中间的主干提取都是一样的,区别就是最后一层不一样。
2.1 创新点
1、除了最后一层,其余层都用Leaky ReLU作为激活函数;
2、使用Dropout与数据增强方法防止过拟合;
3、最后一个卷积层输出为(7,7,1024)的张量,经过两次展平变成1470*1个参数,reshape为7*7*30张量。
参数计算公式:
其中,padding空白的地方都为0,stride=2的时候会引起原尺寸减半,stride空白的地方都为1.
并且经过1*1和3*3的filter都是维持原尺寸不变,只有通道数变化。
2.2输出张量介绍
(7,7,30)里面的每个值介绍。
将一个图片分割成7*7=49个小框(grid cell),每个grid cell用2个边界框(bounding box)来预测,每个边界框包含5个信息(x,y,w,h,c),(x,y)代表边界框中心坐标,(w,h)表示边界框的宽和高;c为框的置信度。20代表有20个类,每个类的概率。
2.3置信度C
其中,概率pr(object)代表是背景还是对象,如果为对象则为1,否则为0;
IOU代表真实值与预测值之间的交并比。
类别置信度:指在有物体的情况下,对应类别的物体的置信度。
2.4非极大值抑制(NMS)
一个grid cell会有多个预测框,为了消除重复的预测框,使用NMS方法。
NMS流程:
1、设置IOU的阈值,比如0.5;
2、选择C值最大的预测框为基准,其它检测跟它比较,计算IOU值。如果IOU>0.5,保留其中C值高的一个;
3,从剩余的检测框中重复步骤2。最后剩下的就是NMS筛选以后的检测框。
2.5 损失函数
2.6 优缺点:
优点:1、非常快,将物体检测当作回归问题;
2、全图检测,不会丢失上下文信息。
缺点:
1、准确率不高,尤其小物体上表现差;
2、可检测道德目标物体较少。
参考资料: