骨干网络
v1的结构
v2的结构
v3的结构,会输出3个尺度的特征图,分别是13x13个grid cell,26x26个grid cell和52x52个grid cell,255是3x85得到的,每个grid cell会生成3个anchor,85是80+5,80是类别个数,5是位置参数加置信度。13x13对应大感受野,预测大物体;52x52对应小感受野,预测小物体。
绿色部分就是上采样。v3实现了各种尺度的融合。
每个grid cell对应3个anchor,每个anchor对应一个预测框,一个预测框对应85个参数,
13x13负责预测大目标,三个蓝框对应3个anchor。比如这个狗的黄框,看他的中心点落在哪个grid cell里面,然后看这个grid cell的哪个anchor与这个黄框的iou最大,就用哪个anchor。
与标注框iou最大的anchor称为正样本,iou挺大的啥都不是,iou小于0.5的称为负样本。
第一项对正样本而言,对坐标进行拟合,第二项是对置信度和类别,第三项是对负样本的置信度。
训练时,三个尺度的参数共10647个,用标注框的参数对它们进行训练,