下载地址
http://yann.lecun.com/exdb/mnist/
文件说明
文件名
- train-images.idx3-ubyte.gz:训练集图片(9912422字节),55000张训练集,5000张验证集
- train-labels.idx1-ubyte.gz:训练集图片对应的标签(28881字节),
- t10k-images.idx3-ubyte .gz:测试集图片(1648877字节),10000张图片
- t10k-labels.idx1-ubyte.gz:测试集图片对应的标签(4542字节)
文件格式
TRAINING SET LABEL FILE (train-labels.idx1-ubyte)
| offset | type | value | description |
|---|---|---|---|
| 0000 | 32 bit integer | 0x00000801(2049) | magic number (MSB first) |
| 0004 | 32 bit integer | 60000 | number of items |
| 0008 | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
| 0009 | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
| … | … | … | … |
| xxxx | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
| offset | type | value | description |
|---|---|---|---|
| 0000 | 32 bit integer | 0x00000803(2051) | magic number |
| 0004 | 32 bit integer | 60000 | number of images |
| 0008 | 32 bit integer | 28 | number of rows |
| 0012 | 32 bit integer | 28 | number of columns |
| 0016 | unsigned byte | ?? | pixel |
| 0017 | unsigned byte | ?? | pixel |
| … | … | … | … |
| xxxx | unsigned byte | ?? | pixel |
TEST SET LABEL FILE (t10k-labels-idx1-ubyte):
| offset | type | value | description |
|---|---|---|---|
| 0000 | 32 bit integer | 0x00000801(2049) | magic number (MSB first) |
| 0004 | 32 bit integer | 10000 | number of items |
| 0008 | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
| 0009 | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
| … | … | … | … |
| xxxx | unsigned byte | 0/1/2/3/4/5/6/7/8/9 | label |
TEST SET IMAGE FILE (t10k-images-idx3-ubyte):
| offset | type | value | description |
|---|---|---|---|
| 0000 | 32 bit integer | 0x00000803(2051) | magic number |
| 0004 | 32 bit integer | 10000 | number of images |
| 0008 | 32 bit integer | 28 | number of rows |
| 0012 | 32 bit integer | 28 | number of columns |
| 0016 | unsigned byte | ?? | pixel |
| 0017 | unsigned byte | ?? | pixel |
| … | … | … | … |
| xxxx | unsigned byte | ?? | pixel |
保存为图片格式

该博客详细介绍了MNIST手写数字数据集的文件结构,并提供了Python代码实现数据的加载、解析以及图片的保存和可视化。内容包括训练集和测试集的标签及图像文件的格式解读,以及如何将二进制数据转换为可读的图片格式。
最低0.47元/天 解锁文章
8993





