MNIST数据集手写体识别(RNN实现)

最新推荐文章于 2021-08-14 11:37:43 发布

原创最新推荐文章于 2021-08-14 11:37:43 发布 · 1.8k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#RNN #MNIST

TensorFlow相关专栏收录该内容

15 篇文章

订阅专栏

本文深入探讨了使用TensorFlow实现的手写体识别模型，通过卷积神经网络(CNN)和循环神经网络(RNN)对MNIST数据集进行训练，详细介绍了模型的构建、训练和测试过程。

部署运行你感兴趣的模型镜像

github博客传送门
 博客园传送门

本章所需知识:

资料下载链接:

深度学习基础网络模型(mnist手写体识别数据集)

MNIST数据集手写体识别(CNN实现)

import tensorflow as tf
import tensorflow.examples.tutorials.mnist.input_data as input_data  # 导入下载数据集手写体
mnist = input_data.read_data_sets('../MNIST_data/', one_hot=True)


class RNNNet:  # 创建一个RNNNet类
    def __init__(self):
        self.x = tf.placeholder(dtype=tf.float32, shape=[None, 28, 28], name='input_x')  # 创建数据占位符
        self.y = tf.placeholder(dtype=tf.float32, shape=[None, 10], name='input_y')  # 创建标签占位符

        self.fc_w1 = tf.Variable(tf.truncated_normal(shape=[128, 10], dtype=tf.float32, stddev=tf.sqrt(1 / 10), name='fc_w1'))  # 定义 输出层/全链接层 w
        self.fc_b1 = tf.Variable(tf.zeros(shape=[10]), dtype=tf.float32, name='fc_b1')  # 定义 输出层/全链接层 偏值b

	# 前向计算
    def forward(self):
        cell = tf.nn.rnn_cell.BasicLSTMCell(128)  # 创建128个LSTM的RNN结构(细胞结构)
        state1 = cell.zero_state(100, dtype=tf.float32)  # 初始化细胞的状态为 0, 传入初始化批次 和数据类型

        self.rnn_ouput, self.state = tf.nn.dynamic_rnn(cell, self.x, initial_state=state1, time_major=False)  # 将细胞cell 和数据 self.x 初始化状态传入RNN细胞结构 获得两个返回值 output 和 状态state
        self.fc1 = tf.matmul(self.rnn_ouput[:, -1, :], self.fc_w1) + self.fc_b1  # 取rnn_output的输出状态的 每个输出的最后一行 进行全链接计算
        self.output = tf.nn.softmax(self.fc1)  # 将全链接计算后的结果进行 softmax分类

	# 后向计算
    def backward(self):
		# 求出网络的 cost值(损失)
        self.cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=self.y, logits=self.fc1, name='cost'))
        # 使用AdamOptimizer优化器优化 self.cost
		self.opt = tf.train.AdamOptimizer().minimize(self.cost)

	# # 计算测试集识别精度
    def acc(self):
		# 将预测值 output 和 标签值 self.y 进行比较
        self.acc1 = tf.equal(tf.argmax(self.output, 1), tf.argmax(self.y, 1))
		#  最后对比较出来的bool值 转换为float32类型后 求均值就可以看到满值为 1的精度显示
        self.accaracy = tf.reduce_mean(tf.cast(self.acc1, tf.float32))


if __name__ == '__main__':
    net = RNNNet()  # 启动tensorflow绘图的RNNNet
    net.forward()  # 启动前向计算
    net.backward()  # 启动后向计算
    net.acc()  # 启动精度计算
    init = tf.global_variables_initializer()  # 定义初始化tensorflow所有变量操作
    with tf.Session() as sess:  # 创建一个Session会话
        sess.run(init)  # 执行init变量内的初始化所有变量的操作
        for i in range(10000):  # 训练10000次
            ax, ay = mnist.train.next_batch(100)  # 从mnist数据集中取数据出来 ax接收图片 ay接收标签
            ax_batch = ax.reshape([-1, 28, 28])  # 将取出的 图片数据 reshape成 NSV 结构
            loss, output, accaracy, _ = sess.run(fetches=[net.cost, net.output, net.accaracy, net.opt], feed_dict={net.x: ax_batch, net.y: ay})  # 将数据喂进RNN网络
            # print(loss)  # 打印损失
            # print(accaracy)  # 打印训练精度

            if i % 10 == 0:  # 每训练10次
                test_ax, test_ay = mnist.test.next_batch(100)  # 则使用测试集对当前网络进行测试
                test_ax_batch = sess.run(tf.reshape(test_ax, [-1, 28, 28]))  # 将取出的 图片数据 reshape成 NSV 结构
                test_output = sess.run(fetches=net.output, feed_dict={net.x: test_ax_batch})  # 注意fetches=[net.output]加了中括号返回值会变为list    # 将测试数据喂进网络 接收一个output值
                test_acc = tf.equal(tf.argmax(test_output, 1), tf.argmax(test_ay, 1))  # 对output值和标签y值进行求比较运算
                test_accaracy = sess.run(tf.reduce_mean(tf.cast(test_acc, tf.float32)))  # 求出精度的准确率进行打印
                print(test_accaracy)  # 打印当前测试集的精度

最后附上训练截图:

RNN

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

28 条评论

胖胖胖胖胖虎 2021.03.29
博主你好，请教下：针对多维回归是用： -------------- 1 --------------- https://stackoverflow.com/questions/55859185/unknown-problems-in-a-keras-neural-network-for-multi-label-regression 这种多输出output的；还是修改输出维度的方式 [code=plain] -------------- 2 --------------- model = Sequential() model.add(Dense(16, input_dim = ipad_test_numpy_input.shape[1], activation='linear')) model.add(Dense(8, activation='linear')) model.add(Dense(2, activation='linear')) [/code] 一直没懂有什么区别、谢谢！
- zh3389回复胖胖胖胖胖虎 2021.04.03
  特征分析这块我不是特别了解, 大多数时候都是具体情况具体分析. 多维标签, 一般把标签展开或者通过其他编解码的方式映射构造损失函数.
- 胖胖胖胖胖虎回复zh3389 2021.04.02
  想再请教下：在模型训练之前是不是需要做特征相关性分析？皮尔森相关性吗？如果是多维标签的相关性应该如何处理，谢谢~
- zh3389回复胖胖胖胖胖虎 2021.03.30
  在我看来两种情况都是可以的, 只是写法不同, 其实对于神经网络的结构还是一样的, 都是先通过了多层全连接, 最后输出的时候多个输出口, 每个不同的输出口对应不同的需要回归的预测标签即可.

胖胖胖胖胖虎 2021.03.23
博主你好、请教下：输入层、隐含层激活都是linear、是不是会使得整个模型呈线性；试着变化激活函数类型，但是损失图表现不尽如人意；可以的话请帮忙看看：https://blog.youkuaiyun.com/qq_15138049/article/details/115070283?spm=1001.2014.3001.5501、谢谢~ [code=plain] model = Sequential() model.add(Dense(7, input_shape=(7,),activation='linear', kernel_initializer='random_normal', bias_initializer='random_normal')) #model.add(Dropout(0.5)) model.add(Dense(units=7, activation='linear',kernel_regularizer=regularizers.l2(0.015),bias_regularizer=regularizers.l1(0.015), activity_regularizer=regularizers.l1(0.015))) #model.add(Dropout(0.2)) model.add(Dense(units=2)) model.compile(loss='mse', optimizer=Adam(lr=0.005), metrics=['mae', 'mse']) model.summary() [/code]
- zh3389回复胖胖胖胖胖虎 2021.03.24
  是的如果都是线性激活的话，模型几乎不能拟合稍微复杂一点的问题。整个模型呈线性的话只能拟合那种界限非常明显的数据集，比如一根直线就能分开的两块数据。

胖胖胖胖胖虎 2021.03.10
博主你好，又来打扰了、看到一个问题 https://stackoverflow.com/questions/57547419/standardscaler-with-exported-keras-model 模型训练（大量数据需要归一化处理 sc.fit_transform、）但是应用于预测时、只是针对单条记录同样也得做归一化处理那么模型训练时归一化处理的 sc = StandardScaler()，这个对象需要保存，并给到做单条预测做数据归一化处理吗？谢谢~ [code=plain] from sklearn.preprocessing import StandardScaler sc = StandardScaler() train_X = sc.fit_transform(train_X) [/code] 我在训练完之后应用于预测（模型保存再取出应用于单条记录预测）、与在训练测试时得出预测结果存在不一致的情况、谢谢~
- zh3389回复胖胖胖胖胖虎 2021.03.12
  你也同样厉害我也学到很多。
- 胖胖胖胖胖虎回复zh3389 2021.03.11
  真心地感谢博主、耐心且强大、谢谢~[face]monkey2:037.png[/face]
- zh3389回复胖胖胖胖胖虎 2021.03.11
  原来是我误会了, 谢谢你的耐心解释呀[face]monkey2:036.png[/face]
- 胖胖胖胖胖虎回复zh3389 2021.03.11
  因为我这是个回归连续性预测模型、不是分类问题；我这模型标签归一化模型训练损失表现的好一些、感谢回复~
- zh3389回复胖胖胖胖胖虎 2021.03.11
  标签数据一般情况我这边使用的是 one-hot 向量标签一般情况下是不做归一化的，因为标签基本上是一个确定的值，为了反向传播时优化模型参数的，如果归一化的话，会导致数值在0～1之间徘徊处于一个不确定的情况。理论上在你标签类别确定的情况下归一化也是可以训练模型的，只是后续处理起来会麻烦一些，如果对标签做了归一化的话，那预测的时候还是需要归一化的。
- 胖胖胖胖胖虎回复zh3389 2021.03.11
  感谢回复，再请教下：特征数据的归一化、标签数据的归一化是不同的 StandardScaler 对象做fit_transform吗？谢谢~
- zh3389回复胖胖胖胖胖虎 2021.03.11
  构建项目的时候，大部分情况下是需要保存上述对象对单条预测数据做归一化处理，偶尔也会有例外不需要进行归一化的情况。

胖胖胖胖胖虎 2021.02.01
博主你好、新接触机器学习、请教下有个场景是：想预测信号配置参数（多个）、可以使用BP神经网络吗？谢谢~
- zh3389回复胖胖胖胖胖虎 2021.02.26
  你如果使用的是keras的话，keras提供一个api名字为keras.callbacks.ModelCheckpoint文档参考：https://keras.io/zh/callbacks/#modelcheckpoint 可帮助你保存最优模型，如果是非要自己手动实现的话，稍微复杂一点，手动for循环 fit数据进模型，然后得到每一个epoch的 loss val_loss 或者 acc，添加一个 if 判断是否保存模型即可手动实现。
- 胖胖胖胖胖虎回复zh3389 2021.02.24
  博主你好、又来打扰了、请教下：回归性模型“判断损失小于之前保存模型损失”是指什么损失、如下两个训练情况、通过调整参数获取不同损失结果；如何判断损失小于之前保存模型损失，或者说一次模型的训练的损失值是如何保存的？谢谢、 https://blog.youkuaiyun.com/qq_15138049/article/details/113767621#comments_14983677 例如我这篇博客，想保存更优的模型、想通过损失值（或者准确度）作为判断更新依据、请帮忙看看，这样更新可以吗？谢谢~ [code=plain] -----1------ Epoch 198/200 8/8 [==============================] - 0s - loss: 1.1878e-08 - val_loss: 0.5095 Epoch 199/200 8/8 [==============================] - 0s - loss: 1.0396e-08 - val_loss: 0.5095 Epoch 200/200 8/8 [==============================] - 0s - loss: 8.0939e-09 - val_loss: 0.5095 -----2------ Epoch 198/200 8/8 [==============================] - 0s - loss: 2.0180e-08 - val_loss: 0.0037 Epoch 199/200 8/8 [==============================] - 0s - loss: 1.5523e-08 - val_loss: 0.0037 Epoch 200/200 8/8 [==============================] - 0s - loss: 1.1843e-08 - val_loss: 0.0037 [/code]
- zh3389回复胖胖胖胖胖虎 2021.02.10
  模型训练时: 1. 归一化是为了优化梯度的时候防止梯度弥散和梯度爆炸即 nan和inf不能训练模型的情况. 2. 标签一般情况使用one-hot加均方差损失即MSE, 如果使用其它损失函数,则另外考虑. 3. 使用模型时, 预测数据的预处理方式应和训练模型时的一致. (单条数据也需要一致.)
- 胖胖胖胖胖虎回复zh3389 2021.02.09
  博主你好、又来叨扰了；模型训练时，特征需要归一化，标签需要归一化处理吗；另外训练好回归模型应用于预测，预测记录的特征在预测之前需要进行归一化吗（单条记录）？谢谢..
- zh3389回复胖胖胖胖胖虎 2021.02.05
  可以啊, 判断损失小于之前保存模型损失的时候就覆盖模型...
- 胖胖胖胖胖虎回复zh3389 2021.02.05
  嗯嗯、那有没办法可以选择最优的一次模型进行保存呢、
- zh3389回复胖胖胖胖胖虎 2021.02.05
  这是正常情况啊，因为神经网络内部的参数是使用正态分布/高斯分布随机初始化的参数，所以导致训练的时候loss不一样。训练集loss和测试集loss不一样这个也是正常情况，因为训练集和测试集数据不一样，所以导致模型预测的不一样，最终导致loss计算出来的不一样。
- 胖胖胖胖胖虎回复zh3389 2021.02.04
  是指模型训练 history = model.fit()、每次的结果都不一致、训练集loss和测试集loss差的多、、 [code=plain] Epoch 193/200 8/8 [==============================] - 0s - loss: 2.9114e-09 - val_loss: 0.3841 Epoch 194/200 8/8 [==============================] - 0s - loss: 2.4412e-09 - val_loss: 0.3841 Epoch 195/200 8/8 [==============================] - 0s - loss: 2.0674e-09 - val_loss: 0.3841 Epoch 196/200 8/8 [==============================] - 0s - loss: 1.8080e-09 - val_loss: 0.3841 Epoch 197/200 8/8 [==============================] - 0s - loss: 1.6413e-09 - val_loss: 0.3841 Epoch 198/200 8/8 [==============================] - 0s - loss: 1.5485e-09 - val_loss: 0.3841 Epoch 199/200 8/8 [==============================] - 0s - loss: 1.4967e-09 - val_loss: 0.3841 Epoch 200/200 8/8 [==============================] - 0s - loss: 1.4078e-09 - val_loss: 0.3841 [/code][face]monkey2:015.png[/face]
- zh3389回复胖胖胖胖胖虎 2021.02.04
  是在使用训练好的模型的过程中吗？
- 胖胖胖胖胖虎回复zh3389 2021.02.02
  感谢回复、想请教下：预测回归模型训练每次的结果不一致 loss/val_loss都不一致、、可以帮忙看看嘛，谢谢！ [code=plain] print(x_test_data.shape) model = Sequential() model.add(Dense(8, input_shape=(8,),activation='relu', kernel_initializer='random_uniform',bias_initializer='random_uniform')) #model.add(Dropout(0.5)) model.add(Dense(units=10, activation='relu')) model.add(Dropout(0.2)) model.add(Dense(units=1)) model.compile(loss='mse', optimizer=Adam(lr=0.008)) model.summary() H = model.fit(x_train_data, y_train_data, batch_size=10,epochs=200,validation_data=(x_valid_data, y_valid_data), shuffle=True, verbose=1) --------- (8, 8) ------------- Layer (type) Output Shape Param # ---- dense_265 (Dense) (None, 8) 72 ---- dense_266 (Dense) (None, 10) 90 ---- dropout_23 (Dropout) (None, 10) 0 ---- dense_267 (Dense) (None, 1) 11 --------- [/code]
- zh3389回复胖胖胖胖胖虎 2021.02.01
  可以的噢, 只需要在神经网络最后一层多输出几个参数就可以实现了.