机器学习数据集以及下载方式收集
记录一些常用的数据集,以及下载方式
1. 图像类数据集
1. 1 MNIST数据集 (LeCun et al., 1998)
1.2 Fashion-MNIST数据集 (Xiao et al., 2017)
Fashion-MNIST由10个类别的图像组成, 每个类别由训练数据集(train dataset)中的6000张图像 和测试数据集(test dataset)中的1000张图像组成。 因此,训练集和测试集分别包含60000和10000张图像。 测试数据集不会用于训练,只用于评估模型性能。
%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
d2l.use_svg_display()
# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
# 并除以255使得所有像素的数值均在0~1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
root="../data", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)
len(mnist_train), len(mnist_test)
(60000, 10000)
数据大概如下图所示
作者PS:这个图片数据集,没有将单个图片分别存储,而是做成了类似压缩包的方式,方便拷贝。也防止了小文件难以移动的问题
资料来源:https://zh.d2l.ai/chapter_linear-networks/image-classification-dataset.html
1.3 实战kaggle比赛:预测房价
D2l 教程:
https://zh.d2l.ai/chapter_multilayer-perceptrons/kaggle-house-price.html
在房价预测比赛页面的“Data”选项卡下可以找到数据集。我们可以通过下面的网址提交预测,并查看排名:
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
1.5 树叶识别 d2l kaggle 比赛
视频:https://www.bilibili.com/video/BV1z64y1o7iz
kaggle地址:https://www.kaggle.com/c/classify-leaves
数据大概如下,有各种不同形状的叶子
1.6实战 Kaggle 比赛:图像分类 (CIFAR-10)
kaggle网页链接:https://www.kaggle.com/c/cifar-10
D2l 13.13章节中
引入头文件
import collections
import math
import os
import shutil
import pandas as pd
import torch
import torchvision