MNIST数据集是一个入门级的计算机视觉数据集,它包含各种手写数字照片,它也包含每一张图片对应的标签,告诉我们这是数字几。
例如这幅图的标签分别是5、0、4、1。
数据集被分成两部分:60000 行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。其中:60000 行的训练
部分拆为 55000 行的训练集和 5000 行的验证集。
接下来我将介绍一个简单的机器学习模型—CNN,来预测图片里面的数字。
首先介绍一下如何下载MNIST数据集
Tensorflow里面可以用如下代码导入MNIST数据集:
from tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets ( "MNIST_data/", one_hot=True )
成功获取MNIST数据集后,发现本地已经下载了4个压缩文件:
#训练集的压缩文件, 9912422 bytes
Extracting MNIST_data / train-images-idx3-ubyte.gz
#训练集标签的压缩文件,28881 bytes
Extracting MNIST_data / train-labels-idx1-ubyte.gz
#测试集的压缩文件,1648877 bytes
Extracting MNIST_data / t10k-images-idx3-ubyte.gz
#测试集的压缩文件,4542 bytes
Extracting MNIST_data / t10k-labels-idx1-ubyte.gz