代码:
PyTorch-YOLOv3
主要思想:
1.一张图片分成S*S个cell,如果一个object的中心落在某一个cell,那么这个cell就负责预测这个object;
2.每个cell需要预测B个boundingbox(论文中B=2),每个boundingbox中有五个参数:(X,Y,W,H,C)X,Y是该boundingbox中心点的坐标,W和H是长和宽;conference是有没有object的置信度(这里的conference负责看有没有object,至于是哪一个object不是它负责),它是由两部分组成:一是看cell里是否有对象,而是boundbox的准确度。
3.这里的X和Y的坐标是bondingbox的中心点相对于负责预测它的cell的坐标的相对值,而不是相对于整个图片的绝对值。W和H是该boundingbox的长和宽相对于整个图片的长和宽的相对值。这样做的话X,Y,W,H的值都在0-1之间。
4.每个cell需要预测C个条件概率(这里的C是class的数目,VOC2007数据集中c=20),按照这个计算,输出维度就是S*S*(B*5+C)。
5.网络结构示意图: