IP102 数据集是一个用于农作物病虫害识别的大规模数据集,具有以下特点1:
- 数据规模大:包含 75,222 幅图像,涵盖 102 个类别的害虫,图像来源于互联网上的 ImageNet、COCO 等,以及包含害虫内容的视频剪辑。
- 有层次分类系统:8 种作物(如水稻、玉米和小麦)进一步分为大田作物和经济作物两个超级类别,例如稻秆蛆亚类具有水稻和大田作物的超类。
- 数据分布不均衡:呈现自然的长尾分布,不同类别的样本数量差异较大,存在类内方差和类间数据不平衡的问题,增加了识别难度。
- 类间差异小、类内差异大:害虫种类多,类间特征相似,而同一类害虫在生命周期的不同阶段(卵、幼虫、蛹和成虫)差异大,增加了准确识别的难度。
- 部分图像有边界框标注:为大约 19,000 幅图像添加了用于对象检测的边界框,有助于定位图像中害虫的位置。
该数据集主要用于目标分类与检测任务,可帮助研究人员开展害虫控制、细粒度视觉分类和不平衡学习领域的研究