PaddleClas图像识别任务数据集全解析
前言
在计算机视觉领域,图像识别是一项基础而重要的任务。PaddleClas作为强大的图像分类和识别工具库,支持多种图像识别任务。本文将全面解析PaddleClas中图像识别任务的数据集格式要求,并详细介绍各类常用数据集,帮助开发者快速上手图像识别项目。
数据集格式详解
图像识别任务数据集组成
与普通分类任务不同,图像识别任务通常需要三类数据:
- 训练集(train dataset):用于模型训练,学习图像特征
- 底库数据集(gallery dataset):作为检索的基础数据库
- 测试数据集(query dataset):用于评估模型性能
文件格式规范
PaddleClas使用txt文件指定数据集,每行数据以空格分隔,包含以下信息:
- 训练集格式:
图片路径 label unique_id
- 测试集/底库集格式:根据场景不同有两种格式
场景一:gallery和query相同
这种情况下需要unique_id来排除检索图片本身的影响。例如CUB_200_2011数据集:
test/200/Common_Yellowthroat_0126_190407.jpg 200 1
test/200/Common_Yellowthroat_0114_190501.jpg 200 6
场景二:gallery和query不同
这种情况下只需两列信息:图片路径 label
。例如:
query/001.jpg 1
query/002.jpg 2
常用数据集介绍
通用图像识别数据集
1. SOP(Stanford Online Products)
- 特点:电商商品数据集,包含22,634个产品的120,053张图片
- 数据划分:
- 训练集:59,551张图片,11,318个类别
- 验证集:60,502张图片,11,316个类别
- 适用场景:商品识别、Metric Learning研究
2. Cars196
- 特点:196类汽车图像,共16,185张
- 数据划分:
- 训练集:8,144张
- 测试集:8,041张
- 特色:细粒度分类,包含制造、型号、年份等信息
3. CUB_200_2011
- 特点:细粒度鸟类数据集,共200类11,788张图像
- 数据划分:
- 训练集:5,994张
- 测试集:5,794张
- 附加信息:提供bounding box、关键部位和属性信息
4. In-shop Clothes
- 特点:DeepFashion子集,7,982件商品共52,712张图像
- 特色:每件商品多角度拍摄,包含463种属性、Bbox和landmarks
垂直领域数据集
动漫人物识别
-
iCartoonFace
- 全球最大手工标注卡通人物数据集
- 5,013个卡通人物,389,678张高质量图片
- 特点:多样性丰富,挑战难度大
-
Manga109
- 21,142张漫画图片
- 适用于文本检测、角色检索等任务
-
IIT-CFW
- 8,928个明星卡通头像+1,000张真实人脸
- 适合跨模态检索研究
商品识别
-
AliProduct
- 业界最大商品数据集
- 5万类别,300万张商品图像
- 注意:数据较脏,分布不均衡
-
Product-10k
- 京东商城商品数据
- 1万SKU,近19万张图片
- 特点:专业团队手工标注
Logo识别
-
Logo-2K+
- 2,341个小类,167,140张图片
- 专为Logo识别设计
-
Tsinghua-Tencent 100K
- 街景交通标志数据集
- 10万张图像,222个类别
- 包含详细标注信息
车辆识别
-
CompCars
- 163个制造商,1,716个型号
- 网络+监控数据,共164,344张图像
- 包含多种属性标注
-
BoxCars
- 全部来自监控数据
- 21,250辆车,63,750张图像
-
PKU-VD Dataset
- 包含VD1和VD2两个大型数据集
- VD1:846,358张图像
- VD2:807,260张图像
- 丰富的车辆属性标注
数据集选择建议
- 通用场景:优先考虑SOP、CUB_200_2011等基准数据集
- 垂直领域:
- 动漫人物:iCartoonFace
- 商品识别:AliProduct(量大)或Product-10k(质量高)
- 车辆识别:CompCars或PKU-VD
- 研究性质:建议选择有丰富标注的数据集如CUB_200_2011
常见问题
-
Q:为什么图像识别需要三个数据集? A:训练集用于模型学习,底库集作为检索基础,测试集评估性能,三者分工不同。
-
Q:unique_id是否必须连续? A:不需要连续,只需保证每张图片id唯一即可。
-
Q:如何选择合适的数据集? A:考虑任务场景、数据规模、标注质量等因素,建议从小规模高质量数据集开始。
通过本文的介绍,相信您已经对PaddleClas中的图像识别任务数据集有了全面的了解。合理选择和使用数据集,将帮助您构建更强大的图像识别模型。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考