以下是图像分类领域的核心数据集及其特点,涵盖通用、专业和新兴任务,结合 2025 年最新资源整理:
一、通用基础数据集
-
ImageNet
- 规模:1419 万张图像,2 万 + 类别。
- 特点:图像分类基准,包含边界框标注,支持细粒度识别(如区分不同品种的狗)。AlexNet、ResNet 等经典模型均基于此训练。
- 挑战:类别分布不均,需处理复杂背景和遮挡。
-
CIFAR-10/CIFAR-100
- 规模:6 万张 32×32 彩色图像,分别为 10 类和 100 类。
- 特点:小尺寸图像,适合轻量级模型验证。CIFAR-10N/100N 引入真实噪声标签,测试模型鲁棒性。
-
MNIST/Fashion-MNIST
- 规模:7 万张 28×28 灰度图像,分别为手写数字和时尚单品分类。
- 特点:入门级数据集,常用于对比算法基线。Fashion-MNIST 可测试模型跨领域泛化能力。
-
Tencent ML-Images(2025 新增)
- 规模:1760 万张训练图像,11,166 个类别。
- 特点:全球最大多标签图像数据库,覆盖复杂语义层次,预训练 ResNet-101 在 ImageNet 上 top-1 准确率达 80.73%。
二、专业领域数据集
医学影像
-
NIH Chest X-ray
- 规模:11.2 万张胸部 X 光片,14 种疾病分类。
- 特点:含定位标注,适合训练疾病筛查模型。
-
PathGen-1.6M(2025 新增)
- 规模:160 万张病理图文对,27 种组织类型。
- 特点:多智能体协作生成,结合 CLIP 和 LLaVA 模型,零样本分类准确率超 79.7%。
工业质检
-
PCB 缺陷检测数据集
- 规模:693 张高清图像,6 种缺陷类型(如短路、漏孔)。
- 特点:产线环境采集,支持 YOLO、COCO 等标注格式,适配实时检测。
-
NEU 表面缺陷数据库
- 规模:1800 张带钢表面图像,6 种缺陷(如裂纹、麻点)。
- 特点:包含微小缺陷(6×6 像素),适合小目标检测研究。
农业与生态
-
iNatAg(2025 新增)
- 规模:470 万张图像,2959 种农作物和杂草。
- 特点:全球覆盖,支持多任务学习(物种分类 + 作物 / 杂草区分),准确率达 92.38%。
-
农作物病虫害分类数据集
- 规模:2.5 万张图像,涵盖木薯、玉米等作物的 20 + 种病虫害。
- 特点:真实场景采集,标注质量高,可直接用于 YOLOCLS 训练。
自动驾驶
-
KITTI
- 规模:7481 张训练图像,3D 标注含车辆、行人等。
- 特点:车载环境采集,支持多传感器融合(激光雷达 + 摄像头)。
-
BDD100K
- 规模:10 万张图像,涵盖 10 类交通目标(如自行车、交通标志)。
- 特点:多天气条件(雨、雾)和昼夜场景,适合泛化能力测试。
三、新兴任务与细粒度识别
-
CUB-200-2011
- 规模:1.18 万张鸟类图像,200 个子类。
- 特点:细粒度标注(如羽毛纹理、喙形),支持局部区域定位。
-
FGVC Aircraft
- 规模:1.02 万张飞机图像,100 个型号(如波音 737、空客 A380)。
- 特点:强调部件差异,适合工业产品细分类。
-
一百零二类花分类数据集
- 规模:6000 张图像,102 种花卉(如玫瑰、郁金香)。
- 特点:MIT 许可,适合艺术与自然场景研究。
四、数据集选择与获取建议
- 通用任务:优先选择 ImageNet(大规模)或 CIFAR-10/100(轻量级)。
- 专业领域:
- 医学:NIH Chest X-ray(公开)、PathGen-1.6M(需申请)。
- 工业:Coovally 平台集成 PCB、玻璃缺陷数据集。
- 细粒度任务:CUB-200-2011、FGVC Aircraft,或 ICLR 2025 的 Finedefics 模型配套数据集。
- 下载与许可:
- 多数数据集通过官网或平台(如 Kaggle、Coovally)获取,需注意版权(如 COCO 为 CC BY-NC-SA)。
- 2025 年新增数据集可通过论文或实验室主页获取。
五、数据集构建与增强
- 数据增强:旋转、翻转、亮度调整(如 CIFAR-10 使用 CutOut)。
- 标注工具:LabelImg(边界框)、CVAT(语义分割)。
- 小样本学习:使用元学习(如 MAML)或数据合成(如 StyleGAN)缓解数据稀缺问题。
2万+

被折叠的 条评论
为什么被折叠?



