机器学习入门项目推荐——手把手实现一个手写数字识别系统

最新推荐文章于 2025-04-08 17:35:52 发布

莫比乌斯之梦

最新推荐文章于 2025-04-08 17:35:52 发布

阅读量1.6k

点赞数 39

分类专栏：技术#AI 文章标签：机器学习人工智能

本文链接：https://blog.youkuaiyun.com/linnaa6/article/details/146914970

版权

技术#AI 专栏收录该内容

25 篇文章

订阅专栏

机器学习（Machine Learning, ML）是人工智能（AI）的核心技术之一，能够帮助计算机自动学习模式并进行预测。对于初学者来说，手写数字识别是一个非常适合入门的项目，它涵盖了数据处理、模型训练、预测等完整的机器学习流程。在本教程中，我们将手把手实现一个手写数字识别系统，使用 Python 和 TensorFlow/Keras 构建一个 CNN（卷积神经网络）模型，让 AI 学会识别 0-9 之间的手写数字。

一、手写数字识别的基本概念

1. 什么是手写数字识别？

手写数字识别是一种图像分类任务，目标是让 AI 学会从手写数字图片中自动识别数字（0-9），类似于银行支票识别、验证码识别等应用。

我们将使用 MNIST 数据集，它包含 60,000 张 28x28 像素的灰度手写数字图像，是机器学习领域最经典的数据集之一。

2. 为什么选择这个项目？

✅ 适合初学者：涵盖机器学习的完整流程，易于理解和实现。

✅ 应用广泛：手写识别是 OCR（光学字符识别）技术的基础，可用于票据识别、证件识别等。

✅ 结合深度学习：可以使用**神经网络（NN）、卷积神经网络（CNN）**等模型，理解深度学习的应用。

二、项目环境准备

在开始编写代码之前，我们需要安装 Python 及相关库。推荐使用 Google Colab（点击访问）在线运行代码，无需安装。

1. 安装必要的 Python 库

如果你在本地运行代码，可以使用以下命令安装相关依赖：

pip install numpy matplotlib tensorflow keras

2. 导入所需的 Python 库

import numpy as np
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import layers, models

三、加载与可视化数据

1. 加载 MNIST 手写数字数据集

TensorFlow 提供了内置的 MNIST 数据集，可以直接加载：

# 加载数据集
(X_train, y_train), (X_test, y_test) = tf.keras.datasets.mnist.load_data()

# 输出数据形状
print(f"训练集：X_train={X_train.shape}, y_train={y_train.shape}")
print(f"测试集：X_test={X_test.shape}, y_test={y_test.shape}")

2. 数据集可视化

我们随机显示一些手写数字图片，以便了解数据：

# 显示前 10 张图片
plt.figure(figsize=(10, 5))
for i in range(10):
    plt.subplot(2, 5, i+1)
    plt.imshow(X_train[i], cmap='gray')
    plt.axis('off')
plt.show()

四、数据预处理

在训练神经网络之前，我们需要进行数据预处理，以提高模型性能。

1. 归一化（Normalization）

原始图片的像素值范围是 0-255，为了提高模型训练效果，我们将其归一化到 [0,1] 之间。

# 归一化数据
X_train, X_test = X_train / 255.0, X_test / 255.0

2. 调整数据形状

CNN 需要输入 4 维数据（批量大小，高度，宽度，通道数），因此我们需要对数据进行 reshape。

# 调整数据形状 (28,28) -> (28,28,1)
X_train = X_train.reshape(-1, 28, 28, 1)
X_test = X_test.reshape(-1, 28, 28, 1)

3. 处理标签数据

标签是 0-9 的整数，我们可以直接使用，无需进行 One-Hot 编码。

五、构建 CNN 模型

我们使用 卷积神经网络（CNN） 来提高图像识别效果。CNN 由 卷积层（Conv2D）、池化层（MaxPooling2D）和全连接层（Dense） 组成。

# 构建 CNN 模型
model = models.Sequential([
    layers.Conv2D(32, (3,3), activation='relu', input_shape=(28, 28, 1)),
    layers.MaxPooling2D(2,2),
    layers.Conv2D(64, (3,3), activation='relu'),
    layers.MaxPooling2D(2,2),
    layers.Flatten(),
    layers.Dense(128, activation='relu'),
    layers.Dense(10, activation='softmax')  # 输出 10 个类别（0-9）
])

# 编译模型
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

六、训练 CNN 模型

我们使用 5 轮（epoch）来训练模型，并观察训练过程。

# 训练模型
history = model.fit(X_train, y_train, epochs=5, validation_data=(X_test, y_test))

训练完成后，我们可以查看测试集上的准确率：

# 评估模型
test_loss, test_acc = model.evaluate(X_test, y_test)
print(f"测试集准确率: {test_acc:.4f}")

七、让 AI 进行手写数字预测

我们让 AI 预测一张手写数字图片，并显示结果：

import numpy as np

# 选择测试集中第一张图片
img = X_test[0].reshape(1, 28, 28, 1)

# 进行预测
predictions = model.predict(img)
predicted_label = np.argmax(predictions)

# 显示结果
plt.imshow(X_test[0].reshape(28,28), cmap='gray')
plt.title(f"AI 预测结果: {predicted_label}")
plt.axis('off')
plt.show()