TensorFlow Cookbook项目:反向传播算法实现详解
前言
反向传播(Back Propagation)是神经网络训练中最核心的算法之一。本文将通过TensorFlow Cookbook项目中的两个实例,详细讲解如何使用TensorFlow实现反向传播算法。我们将分别从回归问题和分类问题两个角度进行阐述,帮助读者深入理解反向传播在深度学习中的应用。
环境准备
首先我们需要导入必要的库并初始化计算图:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow.python.framework import ops
ops.reset_default_graph()
sess = tf.Session()
回归问题示例
数据准备
我们创建一个简单的回归问题:
- 输入数据:100个来自正态分布N(1,0.1)的随机样本
- 目标值:100个值为10.0的常数
理论模型为:x_data * A = target_values,理论上A应该等于10.0。
x_vals = np.random.normal(1, 0.1, 100)
y_vals = np.repeat(10., 100)
x_data = tf.placeholder(shape=[1], dtype=tf.float32)
y_target = tf.placeholder(shape=[1], dtype=tf.float32)
模型构建
- 创建变量A(模型参数):
A = tf.Variable(tf.random_normal(shape=[1]))
- 定义模型操作(简单的乘法):
my_output = tf.multiply(x_data, A)
- 定义损失函数(L2损失):
loss = tf.square(my_output - y_target)
优化器设置
使用梯度下降优化器,学习率设为0.02:
my_opt = tf.train.GradientDescentOptimizer(0.02)
train_step = my_opt.minimize(loss)
训练过程
运行100次迭代,每25次打印一次A值和损失:
for i in range(100):
rand_index = np.random.choice(100)
rand_x = [x_vals[rand_index]]
rand_y = [y_vals[rand_index]]
sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})
if (i+1)%25==0:
print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)))
print('Loss = ' + str(sess.run(loss, feed_dict={x_data: rand_x, y_target: rand_y})))
从输出可以看到,A值逐渐接近理论值10,损失不断减小,说明反向传播算法成功优化了模型参数。
分类问题示例
数据准备
创建二分类问题数据:
- 输入数据:两个正态分布N(-1,1)和N(3,1)各50个样本
- 目标值:前50个为0类,后50个为1类
理论模型为:sigmoid(x+A) < 0.5预测为0类,否则为1类。理论上A应该等于-(mean1 + mean2)/2 = -1。
x_vals = np.concatenate((np.random.normal(-1, 1, 50), np.random.normal(3, 1, 50)))
y_vals = np.concatenate((np.repeat(0., 50), np.repeat(1., 50)))
x_data = tf.placeholder(shape=[1], dtype=tf.float32)
y_target = tf.placeholder(shape=[1], dtype=tf.float32)
模型构建
- 创建变量A(初始化为均值10,远离理论值-1):
A = tf.Variable(tf.random_normal(mean=10, shape=[1]))
- 定义模型操作(加法):
my_output = tf.add(x_data, A)
my_output_expanded = tf.expand_dims(my_output, 0)
y_target_expanded = tf.expand_dims(y_target, 0)
- 定义损失函数(交叉熵):
xentropy = tf.nn.sigmoid_cross_entropy_with_logits(logits=my_output_expanded, labels=y_target_expanded)
优化器设置
使用梯度下降优化器,学习率设为0.05:
my_opt = tf.train.GradientDescentOptimizer(0.05)
train_step = my_opt.minimize(xentropy)
训练过程
运行1400次迭代,每200次打印一次A值和损失:
for i in range(1400):
rand_index = np.random.choice(100)
rand_x = [x_vals[rand_index]]
rand_y = [y_vals[rand_index]]
sess.run(train_step, feed_dict={x_data: rand_x, y_target: rand_y})
if (i+1)%200==0:
print('Step #' + str(i+1) + ' A = ' + str(sess.run(A)))
print('Loss = ' + str(sess.run(xentropy, feed_dict={x_data: rand_x, y_target: rand_y})))
可以看到A值从初始的10逐渐收敛到理论值-1附近。
模型评估
计算最终分类准确率:
predictions = []
for i in range(len(x_vals)):
x_val = [x_vals[i]]
prediction = sess.run(tf.round(tf.sigmoid(my_output)), feed_dict={x_data: x_val})
predictions.append(prediction[0])
accuracy = sum(x==y for x,y in zip(predictions, y_vals))/100.
print('Ending Accuracy = ' + str(np.round(accuracy, 2)))
总结
通过这两个示例,我们展示了如何使用TensorFlow实现反向传播算法:
-
回归问题中,我们使用L2损失函数和梯度下降优化器,成功将模型参数A优化到理论值10附近。
-
分类问题中,我们使用交叉熵损失函数,将初始远离理论值的A参数成功优化到-1附近,并获得了很高的分类准确率。
这两个示例清晰地展示了反向传播算法在深度学习中的核心作用,以及如何在TensorFlow中实现这一过程。理解这些基础概念对于构建更复杂的神经网络模型至关重要。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考