PaddleClas图像识别任务数据集全解析

PaddleClas图像识别任务数据集全解析

PaddleClas A treasure chest for visual classification and recognition powered by PaddlePaddle PaddleClas 项目地址: https://gitcode.com/gh_mirrors/pa/PaddleClas

前言

在计算机视觉领域,图像识别是一项基础而重要的任务。PaddleClas作为强大的图像分类和识别工具库,支持多种图像识别任务。本文将全面解析PaddleClas中图像识别任务的数据集格式要求,并详细介绍各类常用数据集,帮助开发者快速上手图像识别项目。

数据集格式详解

图像识别任务数据集组成

与普通分类任务不同,图像识别任务通常需要三类数据:

  1. 训练集(train dataset):用于模型训练,学习图像特征
  2. 底库数据集(gallery dataset):作为检索的基础数据库
  3. 测试数据集(query dataset):用于评估模型性能

文件格式规范

PaddleClas使用txt文件指定数据集,每行数据以空格分隔,包含以下信息:

  • 训练集格式图片路径 label unique_id
  • 测试集/底库集格式:根据场景不同有两种格式
场景一:gallery和query相同

这种情况下需要unique_id来排除检索图片本身的影响。例如CUB_200_2011数据集:

test/200/Common_Yellowthroat_0126_190407.jpg 200 1
test/200/Common_Yellowthroat_0114_190501.jpg 200 6
场景二:gallery和query不同

这种情况下只需两列信息:图片路径 label。例如:

query/001.jpg 1
query/002.jpg 2

常用数据集介绍

通用图像识别数据集

1. SOP(Stanford Online Products)
  • 特点:电商商品数据集,包含22,634个产品的120,053张图片
  • 数据划分
    • 训练集:59,551张图片,11,318个类别
    • 验证集:60,502张图片,11,316个类别
  • 适用场景:商品识别、Metric Learning研究
2. Cars196
  • 特点:196类汽车图像,共16,185张
  • 数据划分
    • 训练集:8,144张
    • 测试集:8,041张
  • 特色:细粒度分类,包含制造、型号、年份等信息
3. CUB_200_2011
  • 特点:细粒度鸟类数据集,共200类11,788张图像
  • 数据划分
    • 训练集:5,994张
    • 测试集:5,794张
  • 附加信息:提供bounding box、关键部位和属性信息
4. In-shop Clothes
  • 特点:DeepFashion子集,7,982件商品共52,712张图像
  • 特色:每件商品多角度拍摄,包含463种属性、Bbox和landmarks

垂直领域数据集

动漫人物识别
  1. iCartoonFace

    • 全球最大手工标注卡通人物数据集
    • 5,013个卡通人物,389,678张高质量图片
    • 特点:多样性丰富,挑战难度大
  2. Manga109

    • 21,142张漫画图片
    • 适用于文本检测、角色检索等任务
  3. IIT-CFW

    • 8,928个明星卡通头像+1,000张真实人脸
    • 适合跨模态检索研究
商品识别
  1. AliProduct

    • 业界最大商品数据集
    • 5万类别,300万张商品图像
    • 注意:数据较脏,分布不均衡
  2. Product-10k

    • 京东商城商品数据
    • 1万SKU,近19万张图片
    • 特点:专业团队手工标注
Logo识别
  1. Logo-2K+

    • 2,341个小类,167,140张图片
    • 专为Logo识别设计
  2. Tsinghua-Tencent 100K

    • 街景交通标志数据集
    • 10万张图像,222个类别
    • 包含详细标注信息
车辆识别
  1. CompCars

    • 163个制造商,1,716个型号
    • 网络+监控数据,共164,344张图像
    • 包含多种属性标注
  2. BoxCars

    • 全部来自监控数据
    • 21,250辆车,63,750张图像
  3. PKU-VD Dataset

    • 包含VD1和VD2两个大型数据集
    • VD1:846,358张图像
    • VD2:807,260张图像
    • 丰富的车辆属性标注

数据集选择建议

  1. 通用场景:优先考虑SOP、CUB_200_2011等基准数据集
  2. 垂直领域
    • 动漫人物:iCartoonFace
    • 商品识别:AliProduct(量大)或Product-10k(质量高)
    • 车辆识别:CompCars或PKU-VD
  3. 研究性质:建议选择有丰富标注的数据集如CUB_200_2011

常见问题

  1. Q:为什么图像识别需要三个数据集? A:训练集用于模型学习,底库集作为检索基础,测试集评估性能,三者分工不同。

  2. Q:unique_id是否必须连续? A:不需要连续,只需保证每张图片id唯一即可。

  3. Q:如何选择合适的数据集? A:考虑任务场景、数据规模、标注质量等因素,建议从小规模高质量数据集开始。

通过本文的介绍,相信您已经对PaddleClas中的图像识别任务数据集有了全面的了解。合理选择和使用数据集,将帮助您构建更强大的图像识别模型。

PaddleClas A treasure chest for visual classification and recognition powered by PaddlePaddle PaddleClas 项目地址: https://gitcode.com/gh_mirrors/pa/PaddleClas

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

戴艺音

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值