【深度学习案例】手写数字项目实现-1.数据集介绍

原创

已于 2022-08-19 16:41:23 修改 · 3.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-08-16 20:16:11 首次发布

这篇博客介绍了手写数字识别项目，使用MNIST数据集进行训练。MNIST包含7000张28x28像素的手写数字图片，分为训练集和测试集。文章详细讲解了数据集的读取方法，包括在Matlab和Python中如何读取图片和标签数据，并提供了相应的代码示例。

1. 项目简介

手写数字识别是指给定一系列的手写数字图片以及对应的数字标签，构建模型进行学习，目标是对于一张新的手写数字图片能够自动识别出对应的数字。图像识别是指利用计算机对图像进行处理，通过模型对其分析和理解，得到图片文件中所写的数字。

在人工智能领域，手写数字识别被问题转换为自动分类问题。将0~9之内的10个数字分为10类，通过模型训练，实现对数字图片的分类，间接获取数字图片上的手写数字。

该项目所用到的源码以及所有源码均在GitHub以及Gitee上面开源，下载方式：

GitHub: 
git clone https://github.com/guojin-yan/MNIST_demo.git

Gitee:
git clone https://gitee.com/guojin-yan/MNIST_demo.git

MNIST数据集是一个公开手手写数字识别数据集，该数据集由250个不同的人手写而成，总共有7000张手写数据集。其中训练集有6000张，测试集有1000张。每张图片大小为28x28，为处理后的灰度图，是由28x28个像素点组成。

在这里插入图片描述

上图为手写数字数据集中的部分图片。该数据集可以通过以下路径进行下载：MNIST (http://yann.lecun.com/exdb/mnist/) ；或者通过各种深度学习框架提供的API函数进行下载。

在这里插入图片描述

通过官网下载的方式需要分别下载下图中的四个链接对应的文件，下载完成后，将文件解压到本地即可。

在这里插入图片描述

下图为解压好的文件，该文件为处理后的二进制文件，不是现成的图片文件，不可以直接打开，需要进行处理才可以读取，后面会在详细讲解该文件的读取方式。

在这里插入图片描述

数据集文件主要分两种：一种是图片数据文件，一种是分类标注文件。文件为二进制文件格式。
以训练集文件为例：train-images-idx3-ubyte，该文件为保存的二值化后的手写数字图片数据，大小为28×28×1。我们通过Matlab读取数据文件：

% 打开二进制文件
fid = fopen('train-images-idx3-ubyte', 'rb');
% 读取二进制文件，数据格式为uint8，将所有数据读取到train_images_data中
train_ima