11、深度学习数据集处理与数据增强指南

深度学习数据集处理与数据增强指南

1. 数据集介绍

在深度学习领域,数据集是模型训练的基础。这里主要介绍MNIST和CIFAR - 10两个标准数据集。

1.1 MNIST数据集

MNIST数据集由手写数字图像组成。由于这些图像都是像素数据,它们已经处于相同的尺度,因此不需要进行标准化处理。虽然在使用时可能会对其进行缩放,但目前可以将它们以字节灰度图像的形式存储在磁盘上。该数据集的分布较为均衡,以下是训练集的数字频率分布:
| 数字 | 数量 |
| — | — |
| 0 | 5,923 |
| 1 | 6,742 |
| 2 | 5,958 |
| 3 | 6,131 |
| 4 | 5,842 |
| 5 | 5,421 |
| 6 | 5,918 |
| 7 | 6,265 |
| 8 | 5,851 |
| 9 | 5,949 |

由于数据分布均衡,我们无需担心数据不平衡的问题。

1.2 CIFAR - 10数据集

CIFAR - 10是另一个标准的深度学习数据集,规模较小,无需大量的训练时间和GPU支持。可以使用Keras提取该数据集,首次请求时会自动下载。其源页面为:https://www.cs.toronto.edu/%7Ekriz/cifar.html 。

该数据集包含60,000张32×32像素的RGB图像,分为10个类别,每个类别有6,000个样本。其中,训练集有50,000张图像,测试集有10,000张图像。具体的类别标签和名称如下:
| 标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值