1 PaddleSeg数据集
PaddleSeg (https://github.com/PaddlePaddle/PaddleSeg)是个很方便的语义分割框架。
如果用自己的数据进行训练的话需要按规范的格式整理,结构如下。根目录为dataset(或其他的名称),dataset下包含两个文件夹和两个txt。两个文件夹分别存放图片(images)和标注(annotations),两个txt(train_list.txt,val_list.txt)分别存储训练集和验证集的图片和标注的对应关系。这些文件夹和文件的名称都可以改动,习惯用这几个名称。详见https://github.com/PaddlePaddle/PaddleSeg/blob/release/2.2/docs/data/custom/data_prepare_cn.md
dataset/ # 数据集根目录
|--images # 原图目录
| |--xxx1.jpg (png/tif)
| |--...
| └--...
|
|--annotations # 标注图目录
| |--xxx1.png(tif)
| |--...
| └--...
|--train_list.txt
|--val_list.txt
txt的内容如下组织:
images/xxx1.jpg (xx1.png) annotations/xxx1.png
images/xxx2.jpg (xx2.png) annotations/xxx2