2018.2.28. 与某著名外校在读博士“大哥”商讨决定参加一次kaggle竞赛试水,看到Google Landmark Recognition Challenge点击打开链接可以发表CVPR的workshop, 因而选择此项竞赛。随着对这个项目认知的逐渐加深才知道这是个深坑。。。
〇。运行设备
——自用Dell xps15 9560笔记本 i5 1050 8G
——Finland CSC-IT CENTER FOR SCIENCE
一。数据预处理
此项目训练图片数据有120w张图片,1.5w个类,350G。由于原始数据并没有分类,我们想出了几种方法进行数据分类。
——将同类图片放到相同文件夹 (×)
——将图片重命名为类名 + 序号 (×)
——下载时直接将图片重命名为类名 + 序号 (√)
由于数据量庞大,急于下载而导致疏忽了数据分类,在历经了十几个小时的下载后(200m网还这么慢)发现数据并没有标签需要自己处理,于是想出第一个方法。实现过程中发现速度过慢需要n个小时,转而考虑重命名,结果依旧缓慢没什么区别。再考虑到搞多线程,发现速度提升很多,但是进行到一定时间发生了内存爆炸的情况。进而只能选择重新下载并重命名。使用CSC-IT CENTER 下载4小时完成。