文章目录
Introduction
众所周知,MNIST手写数字数据集是机器学习的"Hello world!"级别的数据集,入门必定少不了它。但是很多人只知道MNIST是手写数字图片的数据集,并不清楚这个数据集和它的来源(NIST SD19)以及其衍生的数据集(EMNIST, FEMNIST)的关系。这里我会对这几个数据集做十分简短的介绍,并附上官网和原文链接,有需要的可以直接去看第一手资料。
NIST Special Database 19
NIST Special Database 19 实际上的名字叫做 NIST Handprinted Forms and Characters Database(NIST手写表格与字符数据库)。NIST全称为 National Institute of Standards and Technology (美国国家标准与技术研究院),因此NIST实际上是一个机构而不是某一个数据集,不过我们通常简称 NIST SD 19 这个数据集为 NIST数据集。
NIST SD 19这个数据集有两个版本,第一版1是1995年发布的,第二版2是2016年发布的,第二版实际上只是对第一版的文件格式做了一些调整,使得使用者更加方便能够用到数据,而从数据量来说并没有提升。
NIST SD 19包含62种字符(0-9,a-z,A-Z&#