MNIST手写体数字数据集

本文介绍了MNIST手写体数字数据集,包括数据文件、文件格式、存储方式以及如何使用C++进行读取并转换为图片。训练集包含60000个样本,测试集包含10000个样本,每个图像已归一化为28x28像素。同时,文章阐述了大端存储的概念,并提供了C++读取数据集的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MNIST手写体数字数据集

本文从MNIST数据集的文件、文件格式、存储方式以及使用C++对其读取的流程(最终保存为图片)进行介绍。

  1. MNIST原始数据文件在这里插入图片描述包含以上4个数据文件

  2. 文件格式
    以下只以训练集图片文件为例说明:
    <div<|--|--|魔数,其实就是一个校验数,用来判断这个文件是不是MNIST里面的train-labels.idx1-ubyte文件;

3.数据集
训练样本:共60000个,
其中55000个用于训练,另外5000个用于验证(评估训练过程中的准确度);
测试样本:共10000个(评估最终模型的准确度);
所有数字图像已经进行尺寸归一化、数字居中处理,固定尺寸为28×28像素。

  1. MNIST大端存储方式
        大端存储:高位字节放在内存低地址,
                          低位字节放在内存高地址;
    区别于C/C++变量中的小端存储
        小端存储:低位字节放在内存低地址,
                          高位字节放在内存高地址;
  2. C++读取MNIST数据集读取流程
### 加载和使用MNIST手写体数字数据集 为了在MATLAB中加载并使用MNIST手写体数字数据集进行图像识别或机器学习项目,可以通过以下几种方式进行操作。 #### 下载MNIST数据集 首先需要下载MNIST数据集。可以从官方站点或其他可信资源获取该数据集。如果希望直接在MATLAB环境中简化这一过程,则可以利用第三方工具包或者编写脚本来自动完成下载任务[^1]。 ```matlab % 自动下载 MNIST 数据集到当前文件夹 (假设存在相应的函实现) downloadMnistData('mnist.mat'); ``` #### 使用内置支持包 MATLAB提供了专门的支持包用于处理各种常见的机器学习任务,其中包括对MNIST数据集的支持。安装Deep Learning Toolbox™后,可以直接调用`imageDatastore`和其他相关功能来读取MNIST数据集中的图像文件[^2]。 ```matlab imdsTrain = imageDatastore(fullfile(dataFolder,'train'), ... 'IncludeSubfolders',true,... 'LabelSource','foldernames'); imdsTest = imageDatastore(fullfile(dataFolder,'test'),... 'IncludeSubfolders',true,... 'LabelSource','foldernames'); ``` #### 手动导入二进制格式的据 当MNIST据是以原始的二进制形式(.gz压缩)存储时,可能还需要额外步骤解压这些文件,并将其转换成适合进一步分析的形式。此时可借助于自定义代码片段来进行必要的预处理工作: ```matlab function [images, labels] = load_mnist_images(filename) fid = fopen(filename); if fid == -1 error(['Could not open file ', filename]); end magicNumber = fread(fid, 1, 'int32', 0, 'b'); % Read magic number numImages = fread(fid, 1, 'int32', 0, 'b'); % Number of images rows = fread(fid, 1, 'int32', 0, 'b'); % Rows per image cols = fread(fid, 1, 'int32', 0, 'b'); % Columns per image sizeOfImage = rows * cols; images = zeros([sizeOfImage numImages], 'uint8'); labels = []; for i = 1:numImages imgVector = fread(fid, sizeOfImage, 'unsigned char')'; images(:,i) = double(imgVector)/255; % Normalize pixel values to range [0,1] if exist('labelFile', 'var') labelValue = fread(labelFid, 1, 'unsigned char'); labels(i) = labelValue; end end fclose(fid); if ~isempty(labels) fclose(labelFid); end end ``` 上述代码展示了如何手动解析MNIST图像及其对应的标签信息。注意这里还包含了归一化像素值的操作以便后续更高效地训练模型。 #### 构建卷积神经网络(CNN) 一旦成功加载了MNIST数据集之后,就可以着手构建一个简单的CNN架构来进行分类任务。考虑到MATLAB自带了一些高级API使得创建此类结构变得相对简单,下面给出了一种典型的设计思路: ```matlab layers = [ imageInputLayer([28 28 1]) convolution2dLayer(3, 32, 'Padding', 'same') batchNormalizationLayer reluLayer maxPooling2dLayer(2, 'Stride', 2) fullyConnectedLayer(10) softmaxLayer classificationLayer]; options = trainingOptions('adam',... 'InitialLearnRate', 0.001,... 'MaxEpochs', 20,... 'MiniBatchSize', 128,... 'Shuffle', 'every-epoch',... 'ValidationFrequency', 30,... 'Verbose', false,... 'Plots', 'training-progress'); net = trainNetwork(imdsTrain, layers, options); ``` 这段代码实现了从输入层至输出层完整的前馈传播路径设置,并指定了Adam优化器以及一些超参配置选项以指导整个训练流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值