MorvanZhou教程：使用Theano实现回归任务及可视化训练过程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00169/article/details/148393337

MorvanZhou教程：使用Theano实现回归任务及可视化训练过程

tutorials 一个关于机器学习算法的教程项目，适合对机器学习算法有入门兴趣的人士学习和实践，内容包括基础知识、算法原理、实践案例等多个方面。特点是通俗易懂，步骤清晰，易于入门学习。项目地址: https://gitcode.com/gh_mirrors/tut/tutorials

前言

本教程将介绍如何使用Theano框架构建一个简单的神经网络模型来解决回归问题，并通过可视化手段直观地展示训练过程。Theano是一个强大的数值计算库，特别适合深度学习模型的开发和训练。

准备工作

在开始之前，我们需要导入必要的库：

import theano
import theano.tensor as T
import numpy as np
import matplotlib.pyplot as plt

构建神经网络层

我们首先定义一个通用的神经网络层类，这个类将作为我们模型的基本构建块：

class Layer(object):
    def __init__(self, inputs, in_size, out_size, activation_function=None):
        # 初始化权重和偏置
        self.W = theano.shared(np.random.normal(0, 1, (in_size, out_size)))
        self.b = theano.shared(np.zeros((out_size, )) + 0.1)
        
        # 计算线性变换
        self.Wx_plus_b = T.dot(inputs, self.W) + self.b
        
        # 应用激活函数
        self.activation_function = activation_function
        if activation_function is None:
            self.outputs = self.Wx_plus_b
        else:
            self.outputs = self.activation_function(self.Wx_plus_b)

这个Layer类封装了神经网络层的基本功能，包括：

权重和偏置的初始化
线性变换计算
激活函数的应用

创建模拟数据

为了演示回归任务，我们创建了一个简单的二次函数数据集，并添加了一些噪声：

# 生成x数据（-1到1之间的300个点）
x_data = np.linspace(-1, 1, 300)[:, np.newaxis]

# 添加噪声
noise = np.random.normal(0, 0.05, x_data.shape)

# 生成y数据（y = x^2 - 0.5 + 噪声）
y_data = np.square(x_data) - 0.5 + noise

我们可以先可视化这些数据：

plt.scatter(x_data, y_data)
plt.show()

构建神经网络模型

接下来，我们构建一个包含一个隐藏层的神经网络：

# 定义输入变量
x = T.dmatrix("x")
y = T.dmatrix("y")

# 第一层：输入层到隐藏层（10个神经元，使用ReLU激活函数）
l1 = Layer(x, 1, 10, T.nnet.relu)

# 第二层：隐藏层到输出层（1个输出神经元，不使用激活函数）
l2 = Layer(l1.outputs, 10, 1, None)

定义损失函数和优化过程

我们使用均方误差作为损失函数，并采用梯度下降法进行优化：

# 计算均方误差损失
cost = T.mean(T.square(l2.outputs - y))

# 计算梯度
gW1, gb1, gW2, gb2 = T.grad(cost, [l1.W, l1.b, l2.W, l2.b])

# 定义学习率
learning_rate = 0.05

# 创建训练函数
train = theano.function(
    inputs=[x, y],
    outputs=[cost],
    updates=[(l1.W, l1.W - learning_rate * gW1),
             (l1.b, l1.b - learning_rate * gb1),
             (l2.W, l2.W - learning_rate * gW2),
             (l2.b, l2.b - learning_rate * gb2)])

创建预测函数

为了方便查看模型的预测结果，我们创建一个预测函数：

predict = theano.function(inputs=[x], outputs=l2.outputs)

可视化训练过程

为了直观地观察模型的训练过程，我们设置了实时可视化：

# 初始化图形
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(x_data, y_data)
plt.ion()  # 开启交互模式
plt.show()

# 训练循环
for i in range(1000):
    # 训练模型
    err = train(x_data, y_data)
    
    # 每50次迭代更新一次可视化
    if i % 50 == 0:
        try:
            ax.lines.remove(lines[0])  # 移除旧的预测线
        except Exception:
            pass
        
        # 获取当前预测结果
        prediction_value = predict(x_data)
        
        # 绘制新的预测线（红色，线宽5）
        lines = ax.plot(x_data, prediction_value, 'r-', lw=5)
        plt.pause(.5)  # 暂停0.5秒以便观察