关于MNIST数据集:
1、由受人尊敬的神经网络研究员Yann LeCun的网站可以得到原始格式的MNIST手写数据集参见:MNIST数据库(1.0)
2、由于上述的MNIST数据库的格式不容易使用,因此其他人创建了相对简单的数据文件格式,参见:MNIST数据库(2.0)
这些文件称为CSV文件,这意味着纯文本中的每一个值都是由逗号分隔的,我们可以轻松地在任何文本编辑器中查看这些数值,大部分的电子表格和数据分析软件也兼容CSV文件。
在此网页下,可下载测试集 train set 和训练集 test set 这两个CSV文件.
用excel打开:
用文本编辑器打开:
第一列的值是标签,即书写者实际希望表示的数字,如“5”“0”或者“7”“2”等,这是我们希望神经网络学习得到的正确答案。
(每一行共785个值,编辑器自动换行了,例如,用文本编辑器打开测试集,第一列的第一个值是7,第二个值是2……)
为什么每一行除