Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

本文详细介绍了WebVision数据集,其主要有Google和Flickr两个数据源,数据类别与ImageNet相同,为1000类别,训练数据由240万幅图片构成。同时指出该数据集存在数据分布不平衡、含有大量错误或歧义标签两大挑战,下载和使用方法后期更新。

Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

 

 

 

目录

WebVision数据集简介

1、WebVision数据集挑战

WebVision数据集下载

WebVision数据集使用方法


 

 

 

 

WebVision数据集简介

        WebVision数据集主要有Google和Flickr两个数据源。主要是利用ImageNet1000个类的文本信息 从网站上爬数据,所以它的数据类别与}mageNet完全一样,为1000类别,由240万幅图片构成训练 数据。比}mageNet的两倍还多,分别由5万张图片构成验证集和测试集(均带有人工标注)。 

1、WebVision数据集挑战

(1)、数据分布不平衡

      WebVision数据集主要有两个挑战。 第一个挑战,数据分布非常不平衡。 如图横坐标代表1000个类别,纵坐标代表每个类别的图片数量。如图浅蓝色的平稳曲线是ImageNet的 数据分布,每一个类别大概有1200张图片。而深蓝色曲线为Web Vision数据分布,可以看出有的类别高达11000张,而最少的小于400张图片,这种极度不平衡的分布对训练模型影响非常大。 

(2)、数据集含有大量错误或歧义的标签

          第二个挑战,数据集含有大量错误或歧义的标签。 数据集中含有大量与类别标签不相关或歧义的图片,也就是所谓的噪声,这也是最主要的一个难点。比如Willet可以是一种鸟,但也可以是人名,也可以是建筑物的名字。

 

WebVision数据集下载

后期更新……

 

 

 

WebVision数据集使用方法

后期更新……

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值