目录
1.caltech101
torchvision.datasets.Caltech101(root: str, target_type: Union[List[str], str] = 'category', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
依赖scipy包导入标签数据
root:数据集存放的位置
target_type:string or list标签的类别
transform:对于图片的变换器
target_transform:对于标签的变换器
download:如果数据集在指定位置不存在是否进行下载
Caltech-101 Dataset 是由具有101 个类别的图片组成的数据集,它主要用于目标识别和图像分类。不同类别有 40 至 800 张图片,每张图片的大小在 300 * 200 像素,且数据集的发布者均已标注对应的目标以供使用。
2.caltech256
torchvision.datasets.Caltech256(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
Caltech-256 Dataset 是 Caltech-101 Dataset 的改进版,其主要有以下几点改动:
a)类别数量增加一倍以上;
b)任何类别中图像的最小数量从 31 增加到 80;
c)避免因图像旋转造成的伪影;
d)引入了一个新的更大的杂波类别来测试背景拒绝。
该数据集涵盖 256 个类别,共计 20607 张图片
3.celeba
torchvision.datasets.CelebA(root: str, split: str = 'train', target_type: Union[List[str], str] = 'attr', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
split:train,valid,test,all选择使用的数据集部分
CelebFaces(CelebA)Dataset 是一个大型人脸属性数据集,拥有超过 200k 的名人图像,其中每张图像由 40 个属性注释,该数据集中的图像覆盖了大量的姿势和背景,其中 CelebA 的注释包括 10,177 个身份,202,599 个面部图像和 5 个地标位置。
4.cifar10
torchvision.datasets.CIFAR10(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
CIFAR-10 Dataset 是用于机器视觉领域的图像分类数据集,它有飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车共计 10 个类别的60000 张彩色图像,尺寸均为 32*32。
5.cifar100
torchvision.datasets.CIFAR100(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
CIFAR-100 Dataset 是用于机器视觉领域的图像分类数据集,拥有 20 个大类,每个大类中又分为小类,共计100 个小类,其中每个小类包含 600 张图像(500 张训练图像和 100 张测试图像),并且每张图像均有一个小类别标签和一个大类别标签。
6.cityscapes
依赖Cityscape包
torchvision.datasets.Cityscapes(root: str, split: str = 'train', mode: str = 'fine', target_type: Union[List[str], str] = 'instance', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)
Cityscapes 数据集包含 50 个不同城市街景中记录的视频序列,其包含 20000 个弱注释帧和 5000 帧的高质量像素级注释。
该数据集专注于对城市街景的语义理解,旨在将评估视觉算法用于语义城市场景理解中,该数据集的应用有以下两点:
-
像素级和实例级语义标签;
-
大量(弱)注释数据的研究。
7.coco
依赖COCO包
torchvision.datasets.CocoCaptions(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)
annfile:json标注文件
torchvision.datasets.CocoDetection(root: str, annFile: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)
COCO 是一个大型图像数据集,其被用于机器视觉领域的目标检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主,图像中的目标通过精确的分割进行位置标定。
该数据集具有目标分割、情景感知和超像素分割,包含 33 万张图像、150 万目标实例、80 个目标类、91 个物品类以及 25 万关键点人物。
8.emnist
torchvision.datasets.EMNIST(root: str, split: str, **kwargs: Any)
详细介绍
EMNIST数据集简介_Chris_zhangrx的博客-优快云博客blog.youkuaiyun.com
9.FakeData
torchvision.datasets.FakeData(size: int = 1000, image_size: Tuple[int, int, int] = (3, 224, 224), num_classes: int = 10, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, random_offset: int = 0)
根据参数配置生成随机的PIL图像
size:要生成的数据集大小
iamge_size:数据集中图片的大小
num_class:生成的数据集的分类数
10.fashionMNIST
torchvision.datasets.FashionMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
10种不同的衣服,灰度图,28*28
11.flickr8k
torchvision.datasets.Flickr8k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)
数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述
torchvision.datasets.Flickr30k(root: str, ann_file: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)
12.hmdb51
torchvision.datasets.HMDB51(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)
动作识别视频数据集
13.imagenet
torchvision.datasets.ImageNet(root: str, split: str = 'train', download: Optional[str] = None, **kwargs: Any)
这个应该都知道吧
14.kinetics400
torchvision.datasets.Kinetics400(root, frames_per_clip, step_between_clips=1, frame_rate=None, extensions=('avi', ), transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0, _audio_channels=0)
动作识别视频数据集
15.kitti
torchvision.datasets.Kitti(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None, download: bool = False)
KITTI 是一套计算机视觉算法评测数据集,其主要用于自动驾驶场景下的相关测试,评测种类涵盖立体图像、光流、视觉测距、3D 物体检测和 3D 追踪等。KITTI 包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像有最多 15 辆车和 30 个行人,并且拥有不同程度的遮挡和截断。
该数据集由 389 对立体图像和光流图、39.2km 视觉测距序列以及超过 200k 个 3D 标注物体图像组成,并以 10Hz 采样同步,其中原始数据集被分为「Road」、「City」、「Residential」、「Campus」和「Person」五类,而 3D 物体检测则分为 car、van、truck、pedestrian、 pedestrian(sitting)、cyclist、tram 以及 misc。
16.kmnist
torchvision.datasets.KMNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
介绍
机器学习数据集篇--KMNIST数据集_PRIS-SCMonkey的博客-优快云博客blog.youkuaiyun.com
古日文数据集
17.lsun
torchvision.datasets.LSUN(root: str, classes: Union[str, List[str]] = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None)
LSUN Dataset 是一个大规模图像数据集,包含 10 个场景类别和 20 个对象类别,共计约 100 万张标记图像。
18.mnist
torchvision.datasets.MNIST(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
这个应该都知道,计算机视觉领域的Hello word
19.omniglot
torchvision.datasets.Omniglot(root: str, background: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
手写字符识别,1623个类别,每个类别20张图片
20.phototour
torchvision.datasets.PhotoTour(root: str, name: str, train: bool = True, transform: Optional[Callable] = None, download: bool = False)
旅游照片数据集
21.place365
torchvision.datasets.Places365(root: str, split: str = 'train-standard', small: bool = False, download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, loader: Callable[[str], Any] = <function default_loader>)
Place365-Standard数据集由 MIT 发布,帮助场景分类的数据集。该数据集包括 180 万张训练照片来自于 365 类场景。
22.qmnist
torchvision.datasets.QMNIST(root: str, what: Optional[str] = None, compat: bool = True, train: bool = True, **kwargs: Any)
23.sbd
torchvision.datasets.SBDataset(root: str, image_set: str = 'train', mode: str = 'boundaries', download: bool = False, transforms: Optional[Callable] = None)
voc中带有标记的11355张数据集
24.sbu
torchvision.datasets.SBU(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)
25.semeion
torchvision.datasets.SEMEION(root: str, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = True)
26.stl10
torchvision.datasets.STL10(root: str, split: str = 'train', folds: Optional[int] = None, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
27,svhn
torchvision.datasets.SVHN(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
28.ucf101
torchvision.datasets.UCF101(root, annotation_path, frames_per_clip, step_between_clips=1, frame_rate=None, fold=1, train=True, transform=None, _precomputed_metadata=None, num_workers=1, _video_width=0, _video_height=0, _video_min_dimension=0, _audio_samples=0)
29.usps
torchvision.datasets.USPS(root: str, train: bool = True, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)
30.voc
torchvision.datasets.VOCSegmentation(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None) torchvision.datasets.VOCDetection(root: str, year: str = '2012', image_set: str = 'train', download: bool = False, transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, transforms: Optional[Callable] = None)
voc数据集
31.widerface
torchvision.datasets.WIDERFace(root: str, split: str = 'train', transform: Optional[Callable] = None, target_transform: Optional[Callable] = None, download: bool = False)