Deep-Person-ReID 数据集准备完全指南
前言
在行人重识别(ReID)研究领域,高质量的数据集是算法开发和性能评估的基础。本文将详细介绍如何为Deep-Person-ReID项目准备各类常用数据集,包括图像和视频数据集,帮助研究人员快速搭建实验环境。
数据集存储结构
建议将所有ReID数据集统一存放在一个目录下,例如"path/to/reid-data/"。在代码中初始化DataManager时,需要将root
参数指定为该目录路径。下文将使用$REID
表示这个基础路径。
数据集分类说明
数据集分为两类:
- 自动化处理数据集(标记为†):可直接通过DataManager调用,系统会自动下载并组织数据结构
- 手动设置数据集:需要按照特定步骤手动下载和配置
图像数据集准备
Market1501数据集 (market1501)
存储路径:$REID/market1501
下载步骤:
- 从原始网站下载数据集压缩包
- 解压后目录结构应为:
market1501/
Market-1501-v15.09.15/
query/
bounding_box_train/
bounding_box_test/
扩展版本: Market1501+500K版本包含额外50万张干扰图像,使用时需指定参数market1501_500k
。
CUHK03数据集 (cuhk03)
特殊说明:
- 支持新旧两种划分方式(767/700和1367/100)
- 提供检测版(labeled)和标注版(detected)两种图像版本
配置要点:
- 下载基础数据集和新划分配置文件
- 目录结构应为:
cuhk03/
cuhk03_release/
cuhk03_new_protocol_config_detected.mat
cuhk03_new_protocol_config_labeled.mat
DukeMTMC-reID数据集 (dukemtmcreid)
自动化处理:可直接通过DataManager调用
手动配置:
- 下载数据集压缩包
- 解压后目录结构:
dukemtmc-reid/
DukeMTMC-reID/
query/
bounding_box_train/
bounding_box_test/
MSMT17数据集 (msmt17)
特点:包含多个版本(V1/V2)
目录结构:
msmt17/
MSMT17_V1/
train/
test/
list_train.txt
list_query.txt
list_gallery.txt
其他图像数据集
- VIPeR (viper):双摄像头采集,共632个行人
- GRID (grid):地铁监控场景,包含250对行人
- CUHK01 (cuhk01):香港中文大学采集,971个行人
- SenseReID (sensereid):商汤科技发布的数据集
- QMUL-iLIDS (ilids):交通枢纽监控场景
- PRID (prid):包含单镜头和多镜头版本
- CUHK02 (cuhk02):五组不同视角数据
- CUHKSYSU (cuhksysu):校园监控场景
视频数据集准备
MARS数据集 (mars)
特点:大规模视频ReID基准数据集
配置步骤:
- 下载视频数据和划分元数据
- 目录结构:
mars/
bbox_test/
bbox_train/
info/
iLIDS-VID数据集 (ilidsvid)
自动化处理:可直接调用
手动配置:
ilids-vid/
i-LIDS-VID/
train-test people splits/
PRID2011数据集 (prid2011)
协议说明:遵循标准协议,仅使用序列长度超过阈值的178个行人
目录结构:
prid2011/
splits_prid2011.json
prid_2011/
single_shot/
multi_shot/
DukeMTMC-VideoReID数据集 (dukemtmcvidreid)
特点:DukeMTMC的视频版本
目录结构:
dukemtmc-vidreid/
DukeMTMC-VideoReID/
train/
query/
gallery/
常见问题处理
- 路径变更问题:如果数据集父路径变更,需要手动删除自动生成的json文件
- 下载链接失效:部分原始链接可能失效,建议联系原作者获取新链接
- 数据版本差异:注意不同版本数据集(如MSMT17的V1/V2)的区别
最佳实践建议
- 严格按照建议的文件夹名称组织数据
- 优先使用自动化处理的数据集
- 对于大型数据集,建议使用固态硬盘存储以提高读取速度
- 定期备份原始数据压缩包
通过本文的详细指导,研究人员可以系统地准备各类ReID数据集,为后续的算法开发和性能评估奠定坚实基础。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考