2 神经网络的数学基础
接上次笔记继续学习。
这部分内容主要包含:第一个神经网络示例、张量与张量运算、神经网络如何通过反向传播与梯度下降进行学习?
2.1 初识神经网络
解决问题:将手写数字的灰度图像(28像素✖28像素)划分到 10 个类别中(0~9)。
使用数据集:MNIST 数据集(机器学习领域中的一个经典数据集,包含60000张训练图像和10000张测试图像,如下图给出了该数据集的一些样本)
关于类和标签的说明:
在机器学习中,分类问题中的某个类别叫做 类(class)。数据点叫做样本(sample)。某个样本对应的类叫作标签(label)。
MNIST数据集预先加载在Keras库中,其中包含4个Numpy数组。
# 加载Keras中的MNIST数据集
from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
其中,train_images和train_labels组成了训练集(training set),模型将从这些数据中进行学习。然后在测试集(test set,即test_images和test_labels)上对模型进行测试。
图像被编码为Numpy数组,而标签时数字数组,取值范围为0-9。图像和标签一一对应。
训练数据如下:
>>> train_images.shape
(60000, 28, 28)
>>> len(train_labels)
60000
>>> train_labels
array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)
测试数据如下:
>>> test_images.shape
(10000, 28, 28)
>>> len(test_labels)
10000
>>> test_labels
array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)
接下来的工作流程如下:首先,将训练数据(train_images和train_labels)输入神经网络,其次,网络学习将图像和标签关联在一起,最后,网络对test_images生成预测,接下来将验证这些预测与test_labels中的标签是否匹配。
# 网络架构
from keras import models
from keras import layers
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))
神经网络的核心组件是层(layer),它是一种数据处理模块,可以看作数据过滤器。具体来说,层从输入数据中提取表示——我们期望这种表示有助于解决手头的问题。大多数深度学习都是将简单的层链接起来,从而实现渐进式的数据蒸馏(data distillation)。深度学习模型就像是数据处理的筛子,包含一系列越来越精细的数据过滤器。
在本例中的网络包含2个Dense层,它们是密集连接(也叫全连接)的神经层。第二层(也是最后一层)是一个10路softmax层,它将返回一个由10个概率值(总和为1)组成的数组。每个概率值表示当前数字图像属于10个数字类别中某一个的概率。
要想训练网络,还需要选择**编译(compile)**步骤的三个参数。
- 损失函数(loss function):网络如何衡量在训练过程数据上的性能,即网络如何朝着正确的方向前进。
- 优化器(optimizer):基于训练数据和损失函数来更新网络的机制。
- 在训练和测试过程中需要监控的指标(metric):在本例中只需要关注精度即可,即正确分类的图像所占的比例。
# 编译
network.compile(optimizer='rmsprop',
loss='categorical_crossentropy',
metrics=['accuracy'])
在开始训练之前,将对数据进行预处理,将其变换为网络要求的形状,并缩放到所有值都在[0, 1]区间。比如,之前训练图像保存在一个给uint8类型的数组中,其形状为(60000, 28,28),取值区间为[0, 255],我们需要将其变换为一个float32数组,其形状为(60000,28*28),取值范围为0~1。
(uint8 是无符号8位整数,范围为[0, 255],常用于图像处理、信号处理等场景;)
# 准备图像数据
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255
接下来,还需要对标签进行分类编码
# 准备标签
from keras.utils import to_categorical
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
现在准备开始训练网络,在Keras中这一步是通过调用网络的fit方法来完成的——在训练数据上**拟合(fit)**模型。
>>> network.fit(train_images, train_labels, epochs=5, batch_size=128)
Epoch 1/5
60000/60000 [=============================] - 9s - loss: 0.2524 - acc: 0.9273
Epoch 2/5
51328/60000 [=======================>.....] - ETA: 1s - loss: 0.1035 - acc: 0.9692
训练过程中显示了两个数字:一个是网络在训练数据上的损失(loss),另一个是网络在训练数据上的精度(acc)。
很快就能在训练数据上达到0.989(98.9%)的精度。然后检查一下模型在测试集上的性能。
>>> test_loss, test_acc = network.evaluate(test_images, test_labels)
>>> print('test_acc:', test_acc)
test_acc: 0.9785
测试集精度为97.8%,比训练集精度低了不少。训练精度和测试精度之间的这种差距是**过拟合(overfit)**导致的。过拟合是指机器学习模型在新数据上的性能往往比在训练数据上要差。(本例到此结束,可以看到如何构建和训练一个神经网络)。
2.2 神经网络的数据表示
上个例子使用的数据存储在多维Numpy数组中,也叫张量(tensor)。一般来说,当前所有机器学习系统都使用张量作为基本数据结构。
- 什么是张量? ——是一个数据容器。它包含的数据几乎总是数值数据,因此它是数字的容器。比如,矩阵是二维张量。张量是矩阵向任意维度的推广。
- 注意:张量的维度(dimension)通常叫做轴(axis)。
2.2.1 标量(0D张量)
仅包含一个数字的张量叫做标量(scalar,也叫标量张量、零维张量、0D张量)。在Numpy中,一个float32
或float64
的数字就是一个标量张量(或标量数组)。可以用ndim
属性来查看一个Numpy张量的轴的个数。标量张量有0个轴(ndim == 0)。张量轴的个数也叫做阶(rank)