1.将输入图像分为S*S份,如7*7,每个网格进行预测,即有两次(实际为B)猜的机会,一次猜5+C个数,分别为目标矩形中心坐标(x,y),宽度w,高度h,以及该预测矩形与gt的IOU,可理解为一个概率值(最终选择哪个框主要看概率,概率大保留,概率小排除),以及该目标对应C个类别的概率,如:车、人等。最终得到S*S*(5*B+C)维矩阵。
2.与真实值对比,每个网格有无目标已知(1或者0),有目标物体的话,根据gt就能知道该网格对应的真实x,y,w,h为多少,所属类别已知,IOU根据pred_box和gt_box计算。
3、损失计算:每个预测是范围不同,影响不同,直接用均方差不适合。如:x、y、w、h被归一化到当前网格, 范围[0,1],在回归过程中主要关注坐标,因此加权值较大,论文中取5;如果网格里没有目标,p=0,此时标签近似为0,则不太需要关注其回归情况,取较小的权值(0.5)减小影响;减小窗口大小对小目标的影响,开根号