我们先来看看voc数据集是什么样子的:
其中:Annotations里面是图像对应的XML标注信息描述,每张图像有一个与之对应同名的描述XML文件,XML前面部分声明图像数据来源,大小等元信息。举例如下:
上面表示图像对应路径为VOC2012/JPEGImages/2007_000033.jpg,来自flickr网站上,大小为WxHxC=500x366x3,是三通道的彩色图像,其中segmented为1有分割标注,0表示没有分割标注。后面的是对象检测的每个BOX标签信息极其描述信息,图示如下:
其中每个object标签是表示单独的box信息与对象描述,一张图像可以有多个object标签(boxes),
-name表示对象类别
-pose表示采用是从什么视角,常见的有Left、Right、Frontal、rear,
-difficult是否