数据准备
google的flower数据集http://download.tensorflow.org/example_images/flower_photos.tgz
从上述链接下载的图片数据集放在本地,这里我的存放目录是:/home/tf/source/my_flowers_5/mydata。
该数据集有5个分类,共有3670张图片。
daisy(邹菊)类有633张图片,dandelion(蒲公英)类有898张图片,roses(玫瑰)类有641张图片,sunflowers(向日葵)类有699张图片,tulips(郁金香)类有799张图片,格式都为jpg。
脚本文件准备
用到脚本文件只有两个:
- download_and_convert_data.py
- convert_quiz.py
这两个脚本都在我们提供的参考代码中,convert_quiz.py在datasets文件夹里。
download_and_convert_data.py存放的本地目录是:/home/tf/source/my_flowers_5
convert_quiz.py存放的本地目录是:/home/tf/source/my_flowers_5/datasets
修改脚本
download_and_convert_data.py需要修改的内容:
代码第69行,FLAGS.dataset_name == 'quiz' 改成 FLAGS.dataset_name == 'mydata'
‘mydata’ 是随便起的,你也可以用自己喜欢的名字,但是数据集保存的文件夹名称、convert_quiz.py以及后续的作业训练代码都要做相应的修改
convert_quiz.py脚本修改的内容包括:
代码第39行,_NUM_VALIDATION = 734,即设置验证集的数据量,这里采用20%*3670
代码第80行,flower_root = os.path.join(dataset_dir, 'quiz') ,'quiz' 改成 'mydata'
代码第99行,output_filename = 'quiz_%s_%05d-of-%05d.tfrecord',quiz 改成 mydata
运行脚本
修改好后在当前目录/home/tf/source/my_flowers_5打开shell,然后输入以下命令行:
python3 download_and_convert_data.py --dataset_name=mydata --dataset_dir=./
参数说明:
dataset_name = mydata # 数据集的名称
dataset_dir = ./ # 数据集mydata保存的位置,用的是download_and_convert_data.py的相对位置
如果数据打包成功,会有以下的信息提示,
最后生成的TFRecord数据如下图所示,