ImageNet图像数据集介绍

ImageNet图像数据集始于2009年,当时李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文,之后就是基于ImageNet数据集的7届ImageNet挑战赛(2010年开始),2017年后,ImageNet由Kaggle(Kaggle公司是由联合创始人兼首席执行官Anthony Goldbloom 2010年在墨尔本创立的,主要是为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)继续维护。

WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。开发工作从1985年开始。由于它包含了语义信息,所以有别于通常意义上的字典。WordNet根据词条的意义将它们分组,每一个具有相同意义的字条组称为一个synset(同义词集合)。WordNet为每一个synset提供了简短,概要的定义,并记录不同synset之间的语义关系。WordNet中的每个有意义的概念(concept)(可能由多个单词或单词短语描述)被称为"同义词集(synonym set)"或"synset"。

ImageNet是根据WordNet层次结构组织的图像数据集。在ImageNet中,目标是为了说明每个synset提供平均1000幅图像。 每个concept图像都是质量控制和人为标注的(quality-controlled and human-annotated)。 在完成之后,希望ImageNet能够为WordNet层次结构中的大多数concept提供数千万个干净整理的图像(cleanly sorted images)。

ImageNet是一项持续的研究工作,旨在为世界各地的研究人员提供易于访问的图像数据库。目前ImageNet中总共有14197122幅图像,总共分为21841个类别(synsets),大类别包括:amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。

ImageNet有5种下载方式,如下图所示:

(1). 所有图像可通过url下载:不需要账号登录即可免费下载,下载链接:http://www.image-net.org/download-imageurls ,在SEARCH框中输入需要下载的synset,如tree,结果如下图所示,也可按类别下载即WordNet ID,下载链接:http://www.image-net.org/synset?wnid=n02084071 ,其中好像个别url已失效。

(2). 直接下载原始图像:需要自己申请注册一个账号,然后登录,经验证普通非学校邮箱无法注册。对于希望将图像用于非商业研究或教育目的的研究人员,可以在特定条件下通过ImageNet网站提供访问权限。

(3). 下载图像sift features:不需要账号登录即可免费下载,包括原始sift descriptors、quantized codewords、spatial coordiates of each descriptor/codeword。提features前,需要缩放图像大小到最大边长不超过300像素。通过VLFeat开源软件提前sift features。并没有对所有的synsets图像提取sift。下载链接:http://www.image-net.org/api/download/imagenet.sbow.synset?wnid=n02119789 ,后面的n02119789为WordNet ID,可在http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list 中查看有哪些WordNet ID包括sift features并可点击直接下载,下载下来的是一个Matlab文件(.mat),如n02119789.sbow.mat,在每个.mat文件中,每个sift descriptor有5个字段:x, y, norm, scale, word。word字段是cluster(k-means clustering of a random subset of 10 million SIFT descriptors)中心的索引,是一个0到999之间的一个整数。

(4). 下载Object Bounding Boxes:不需要账号登录即可免费下载,bounding boxes是通过亚马逊土耳其机器人(Amazon Mechanical Turk)进行标注和验证的。目前标注过的synsets已经超过3000种,可从http://www.image-net.org/api/text/imagenet.bbox.obtain_synset_list 中查看和下载已标注的种类。对于每种synset,平均有150张带有边界框(bounding boxes)的图像。图像标注以PASCAL VOC格式保存在XML文件中,用户可以使用PASCAL Development Toolkit解析标注。注意:在边界框标注中,有两个字段(width和height)表示图像的大小。标注文件中边界框的位置和大小与此大小有关。但是,此大小可能与下载的包中的实际图像大小不同。(原因是标注文件中的大小是图像显示给标注器的显示大小)。因此,要在原始图像上找到实际像素,可能需要相应地重新缩放边界框。可以通过http://www.image-net.org/Annotation/Annotation.tar.gz 下载所有的标注文件,也可以通过http://www.image-net.org/api/download/imagenet.bbox.synset?wnid=n02119789 ,下载特定的synset,后面的n02119789为WordNet ID。

(5). 下载Object Attributes:不需要账号登录即可免费下载,object attributes是通过亚马逊土耳其机器人(Amazon Mechanical Turk)进行标注和验证的。目前标注过的synsets大约有400种,可从http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_list 中查看已标注的种类,通过http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_wordlist 点击下载特定的种类。对于每一个synset,包含25种属性:A. 颜色:黑色,蓝色,棕色,灰色,绿色,橙色,粉红色,红色,紫罗兰色,白色,黄色; B. 图案(pattern):斑点,条纹;C. 形状:长,圆形,矩形,方形;D. 纹理(texture):毛茸茸,光滑,粗糙,有光泽,金属色,植被(vegetation),木质,湿润。标注的属性是基于先前收集的边界框内的object,即感兴趣区域的object而不是整幅图像。可以通过http://www.image-net.org/downloads/attributes/attrann.mat 下载整个文件,这个.mat文件有一个attrann结构体,包括:A. 图像列表;B. bounding boxes列表:每幅图像一个,每个bounding boxes包含x1,x2,y1,y2字段,所有字段的值都归一化为介于0和1之间;C. 属性列表:图像数*属性数的labels矩阵,label为1表示属性存在,label为-1表示属性不存在,label为0表示不确定。也可以通过http://www.image-net.org/api/download/imagenet.attributes.synset?wnid=n01322604 ,下载特定的synset,后面的n01322604为WordNet ID。

ImageNet中的每张图片属于提供图片的个人,ImageNet不拥有图像的版权,ImageNet数据集可以免费用于学术研究和非商业用途,但不能直接使用这些数据作为产品的一部分。

ImageNet Large Scale Visual Recognition Challenge(ILSVRC),从2010年开始,每年举办的ImageNet大规模视觉识别挑战赛,到2017年后截止。比赛项目包括:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。ILSVRC中使用到的数据仅是ImageNet数据集中的一部分。比赛使用的所有数据集均可通过登录后下载。

"ImageNet改变了AI领域人们对数据集的认识,人们真正开始意识到它在研究中的地位,就像算法一样重要",李飞飞教授说。

GitHub: https://github.com/fengbingchun/NN_Test 

<think>好的,用户想了解如何正确使用数据集,特别是关于数据集的使用方法和数据处理教程。首先,我需要结合用户提供的几个引用内容,整理出清晰的步骤。用户提到的引用包括CycleGAN、COCO、UNet和ImageNet数据集处理,这些可以作为不同案例来说明。 首先,我应该分步骤讲解,可能包括数据集的下载、预处理、标注、划分和实际应用。每个步骤需要结合具体的例子,比如引用1中的CycleGAN训练,引用3的UNet语义分割数据集准备,引用2的COCO数据集使用,以及引用4的ImageNet下载和处理方法。 需要注意用户提到的系统级指令,比如使用正确的中文回答,生成相关问题,还有引用标识的添加。在回答中,每个步骤后可能需要引用对应的引用源,例如在讲数据集下载时提到ImageNet的步骤引用[^4],在标注工具时提到labelme引用[^3]等。 然后,用户可能还关心数据增强、标注工具使用、数据集划分比例这些细节。需要确保每个部分都简明扼要,同时覆盖关键点。比如预处理中的归一化、尺寸调整,数据增强的方法如翻转、旋转等,这些在CycleGAN和UNet的例子中都有应用。 另外,用户提供的引用中有不同的数据集类型,比如COCO用于检测和分割,ImageNet用于分类,UNet用于语义分割,CycleGAN用于图像转换。这些可以作为不同任务的数据处理案例,帮助用户理解不同场景下的处理方法。 最后,生成的相关问题需要与数据集使用相关,可能包括如何选择合适的数据集、处理不平衡数据、数据增强的最佳实践、标注工具的选择,以及公开数据集的使用注意事项。这些问题应该覆盖用户可能进一步想了解的内容,帮助他们深入学习和解决问题。 总结来说,我需要按照逻辑顺序组织内容,结合具体引用案例,确保每个步骤都有实际例子支持,并自然地添加引用标识。同时,生成的问题要具有针对性,引导用户进一步探索数据集使用的各个方面。</think>### 数据集使用方法与数据处理教程 #### 1. **数据集下载与准备** - **官方渠道获取** 大多数公开数据集(如COCO、ImageNet)需通过官网注册下载。例如ImageNet需用企业或学校邮箱注册后获取访问权限[^4]。 ```markdown # 示例:ImageNet下载步骤 1. 访问官网并注册账号(需机构邮箱) 2. 选择年份(如2012) 3. 下载图像文件和标注文件 ``` - **自建数据集** 若需训练特定任务(如语义分割),可使用工具(如`labelme`)标注数据,生成标签文件[^3]。 #### 2. **数据预处理** - **格式统一化** 将图像调整为相同尺寸(如$256 \times 256$),并归一化像素值至$[0,1]$区间。 - **数据增强** 通过翻转、旋转、裁剪等操作扩充数据量,提升模型泛化能力(CycleGAN等生成任务常用此类方法)[^1]。 #### 3. **标注与标签处理** - **标注工具选择** - 目标检测/分割:使用`labelme`或`CVAT`生成JSON或XML格式标注。 - 分类任务:直接按文件夹分类存储图像。 - **标签格式转换** 将标注文件转换为模型所需格式(如COCO数据集使用`pycocotools`库解析)[^2]。 #### 4. **数据集划分** 按比例划分为训练集、验证集和测试集,典型比例为$7:2:1$。例如: ```python from sklearn.model_selection import train_test_split train_data, test_data = train_test_split(data, test_size=0.3) ``` #### 5. **实际应用案例** - **CycleGAN图像转换** 需配对或非配对图像数据集,输入路径需按`trainA`、`trainB`组织。 - **UNet语义分割** 输入为原始图像和对应掩膜文件(PNG格式),需确保文件名一一对应。 --- ###
评论 38
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值