1.mxnet的输入数据解释:
mxnet的数据输入与其他的框架诸如tensorflow,pytorch不同,其特别之处在于:不直接输入图片,而是输入rec文件。
rec文件是什么?rec文件内存放了每一张图片的data以及对应的label,相当于将所有图片集合成一个文件,且这个文件中含有图像的数据和标签信息。生成一个rec文件需要一个lst文件,再利用mxnet文件夹下的tools文件夹下的im2rec.py
将图片生成为rec文件和idx文件。
调用格式:
python im2rec.py lst文件存放路径 image文件存放路径
这样就根据lst文件和图像文件生成了rec和idx文件,生成的rec和idx文件与lst文件存放路径相同。
那么接下来的问题是,如何生成这个lst文件?这个lst文件有什么呢?监督学习需要标签,因此这个lst文件里面需要包含每一张图片的存放地址(包括名称),标签信息。举个栗子:
对上图的解释:第一列为数据的序号,第二列为车辆的ID,第三列为车辆的model信息(249中车型),第四列为图片存放的地址。
所以对于编程人员来说,只需要编写预处理(preprocess)程序,将数据集中的标签信息(如车辆ID,model,color等信息