引言
在学习和参加相关深度学习比赛的时候,一般情况下都是在准备好的情况下展开,而在实际的工作项目中。因为每一个公司的业务场景不同,需要我们自己去标记图片数据(参看深度学习标记工具汇总),并且在标记好的图片集中制作 caffe 框架的数据格式(lmdb文件),即本文所讲内容。
制作自己的 caffe 训练数据集的整个过程分为:1. 准备自己的数据集;2. 生成 .txt 文件; 3.转化为 db 文件;4. 计算均值。之后开始训练。
准备自己的数据集
这里从网上下载整理一些图片,分为两类,其中 bird 60张和 cat 60张,其中 50张 bird 和 50张 cat 作为训练集,1其余0张作为验证集。在 .../caffe/data 文件夹下新建文件夹 myself,然后在 myself 文件夹下新建两个子文件夹, train 和 val,即训练集和测试集。然后在 train 文件夹下新建两个文件夹 bird 和 cat,分别存放 50 张 bird 图片和 50 张 cat 图片,在 val 文件夹下放 10张bird 和 10张 cat 图片。至此,我们准备好了原始的数据集。
生成 train.txt 和 val.txt 文件,即训练集和验证集列表清单
在 .../caffe/examples 新建一个 myself 文件夹,用于存放配置文件和 脚本文件。
cd ~/caffe/
sudo mkdir examples/myself
# 在 caffe 根目录下进行操作,这是默认的,也是良好的习惯
sudo gedit examples/myself/create_filelist.sh
编辑 create_filelist.sh 脚本文件,输入以下内容:
DATA=data/myself
MY=examples/myself
echo "Create train.txt..."
rm -rf $DATA/train.txt
find $DATA/train/bird -name birdt*.jpg | cut -d '/&