yolo相对于R_CNN系列论文,创新之处在于不再需要候选区域,直接端到端,利用回归的思想,直接回归出边框和类别,大大加快了速度,同时精度也挺高。。
YOLO v1
主要思想
1、将图片划分为s×s的网格,待检测的目标中心点位于哪个网格中,就由哪个网格来负责检测他,论文中每个网格设定了2个框,也就是让2个框来同时拟合一个目标框,所以当网格中存在目标时,那么该网格中的预测框的目标值即为这个目标框的值(对比R_CNN系列论文,他们都是通过预测框与目标框的IOU来设定预测框的目标值);
2、所有的预测框由网络直接传播获得,每个网格预测5个框,每个框用5个预测值来表示,分别(x,y,w,h)和得分, x和y代 表 区域的中心点对于cell左上角 的偏移量,w 和h代表区域相对于全图的宽和高,它们都介于0 - 1之间。得分反映了区域内包含 一 个目标的置信度和预测区域的精确度,得分的计算方法为:
IOU表示预测框与真实框的交并比,如果网格中有目标,Pr就等于1,否则为0,
实际这个公式是为了求训练时得分的目标值,修正网络预测的得分值;
3、每个网格无论有多少个框,都值预测一个类别值(与yolo v2不同,v2中每个anchorbox预测一组类别值),所以正向传播预测结果为s×s×(5×2+20)
4、损失函数
注意:类别损失和坐标损失只计算有目标的网格中的预测框;
但是confidence损失有无目标都要计算。
训练过程
1、网络正向传播,得到s×s×2个预测框
2、计算预测框的目标值,然