深度学习入门day4--手写数字识别初探

深度学习day4：手写数字识别初探

原创已于 2025-07-03 20:46:36 修改 · 531 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2025-07-02 22:25:18 首次发布

深度学习专栏收录该内容

9 篇文章

订阅专栏

鱼书提供的代码可以在github找到。源码地址

环境配置部分可以看前面几篇博客，还是用Anaconda，运行下面代码，可以看哪个库缺失。

import importlib
import numpy as np
deps = {
    "torch": "torch",
    "torchvision": "torchvision",
    "timm": "timm",
    "scipy": "scipy",
    "matplotlib": "matplotlib",
    "tensorboard": "tensorboard",
    "open_clip_torch": "open_clip_torch",
    "sklearn": "sklearn",
    "wandb": "wandb",
    "tqdm": "tqdm",
    "fairscale": "fairscale",
    "sentencepiece": "sentencepiece",
    "PIL": "PIL",
    "cv2": "opencv-python",
    "gradio": "gradio",
    "autofaiss": "autofaiss",
    "diffusers": "diffusers",
    "plotly": "plotly",
    "easydict": "easydict",
    "huggingface_hub": "huggingface_hub",
    "transformers": "transformers",
    "open3d": "open3d",
    "openai": "openai",
    "knn_cuda": "knn_cuda",
}

for k, v in deps.items():
    try:
        importlib.import_module(k)
        print(f"[✓] {v}")
    except ImportError:
        print(f"[✗] {v}")

一、MNIST数据集

由0到9的数字图像构成，训练图像约6万张，测试图片约1万张。图片格式28×28的灰度图像（单通道）。各个像素取值在0~255之间

mnist_show.py

# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 为了导入父目录的文件而进行的设定
import numpy as np
from dataset.mnist import load_mnist
from PIL import Image
def img_show(img):
    pil_img = Image.fromarray(np.uint8(img))
    pil_img.show()

#训练图像，训练标签，测试图像，测试标签
(x_train, t_train), (x_test, t_test) = load_mnist(flatten=True, normalize=False)
print(x_train.shape)
print(t_train.shape)
print(x_test.shape)
print(t_test.shape)
img = x_train[0]
label = t_train[0]
print(label)  # 5

print(img.shape)  # (784,)
img = img.reshape(28, 28)  # 把图像的形状变为原来的尺寸
print(img.shape)  # (28, 28)
img_show(img)

其中，load_mnist这个函数在datatest目录下的mnist.py中定义，负责下载数据集，并将其转化为NumPy数字。函数全称是load_mnist(normalize=True, flatten=True, one_hot_label=False)。

第一个参数normalize表示是否将输入图像正规化为0.0~1.0的值。否则保持原来的0~255。
第二个参数flatten表示是否展开输入图像（变为一维数组）。若为True，输入图像会保存为由784个元素构成的一维数组。若为False，则输入图像为1×28×28的三维数组1.
第三个参数one_hot_label表示是否把标签保存为one-hot表示，one-hot是仅正确解释标签为1，其余皆为0的数组，类似[0,0,0,1,0,0]。若为False，仅仅表示为2，3，4这样的简单正确解标签，为True时，就是one-hot。

由于flatten=True时读入的图像是一列Numpy数组。比如这样

因此为了显示成功，使用img.reshape(28, 28) ，把图像的形状变为原来的尺寸

二、神经网络推理处理

其中，输入层有28×28=784个神经单元，输出层10个神经元（0-9这10个类别）。然后还包括2个隐藏层，第一个隐藏层有50个神经单元，第2个隐藏层100个神经单元。（神经元数目可以自己设置）

#头文件解释
import sys, os
#sys：提供与 Python 解释器相关的功能（如模块搜索路径 sys.path）。
#os：提供与操作系统交互的功能（如文件路径操作 os.pardir）。
sys.path.append(os.pardir)  # 为了导入父目录的文件而进行的设定
#将父目录（os.pardir，通常是 ".."）添加到 Python 的模块搜索路径 sys.path 中。
#目的：为了让 Python 能够找到父目录中的模块（例如后续要导入的 dataset.mnist 和 common.functions）
import numpy as np
import pickle#内置模块，用于加载或保存模型/数据
from dataset.mnist import load_mnist#导入自定义模块中的函数，（/datatest/mnist.py）

函数部分。
get_data()负责加载 MNIST 数据集，并返回测试集的输入数据 x_test和标签 t_test。init_network()负责初始化网络读入保存在pickle中的sample_weight.pkl中学习到的权重参数。
predict(network,x)负责前向传播，并返回预测概率。

def sigmoid(x):
    return 1 / (1 + np.exp(-x))
def softmax(x):
    return np.exp(x) / np.sum(np.exp(x), axis=0)

def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test

def init_network():
    with open("sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)
    return network

def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y

主程序整体流程。首先获取数据集，x获取图像数据，t获取标签数据（Numpy数组形式）。然后使用for循环，逐一取出保存在x中的图像数据，使用predict()进行预测，会返回一个含有各个标签对应概率的Numpy数组，[0,1,0.2,0.03...]，表示识别为“0”，“1”，“2”的概率。然后我们用np,argmax(x)取出数组中最大概率值对应的索引。然后我们比较神经网络所预测的标签和正确答案标签，把正确的概率作为识别精度。

x, t = get_data()          # 加载测试数据
network = init_network()   # 加载预训练的网络权重
accuracy_cnt = 0           # 初始化正确预测的计数器

for i in range(len(x)):
    y = predict(network, x[i])  # 对第 i 个样本进行预测
    p = np.argmax(y)            # 取概率最高的类别作为预测结果
    if p == t[i]:               # 如果预测正确
        accuracy_cnt += 1       # 计数器 +1

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))  # 计算准确率

项目结构是这样的，因为权重是加载好的，运行一下neuralnet_mnist.py这个文件。