梯度下降法训练神经网络：深入理解与实践_梯度下降在神经网络中的应用-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_79927906/article/details/144315628

神经网络是机器学习中的重要模型，其训练过程的核心之一便是优化算法。梯度下降法（Gradient Descent）作为最常用的优化算法，广泛应用于神经网络的训练中。本文将详细探讨梯度下降法如何在神经网络的训练中发挥作用，并通过具体代码实现帮助读者理解其工作原理和实践操作。

1. 神经网络训练概述

神经网络训练的目标是调整网络参数（即权重和偏置），使得网络输出尽可能接近目标值。为了实现这个目标，我们通过损失函数（Loss Function）来衡量网络输出与真实值之间的差距，并通过优化算法最小化这个损失。

常见的损失函数包括：

均方误差（MSE）：用于回归问题。
交叉熵损失：用于分类问题。

梯度下降法则是优化损失函数的核心方法，通过不断更新网络中的权重和偏置，减少损失，逐步逼近最优解。

2. 梯度下降法基本原理

2.1 什么是梯度下降法？

梯度下降法是一种迭代优化算法，它通过计算损失函数在当前点的梯度，沿着梯度的反方向更新参数，直到找到损失函数的最小值。该方法的核心思想是：

梯度：表示损失函数在某一点的变化率，指向损失函数上升最快的方向。
梯度的反方向：沿着梯度反方向更新参数，目的是让损失函数朝着最小值的方向下降。

2.2 梯度下降法的数学表达

假设我们有一个参数向量 θ，损失函数为 L(θ)，梯度下降法的更新规则为：

θ = θ - η * ∇L(θ)

其中：

θ 表示参数（如神经网络中的权重和偏置）。
η 是学习率（learning rate），控制每次更新的步长。
∇L(θ) 是损失函数 L(θ) 对参数 θ 的梯度。

2.3 梯度下降的变种

批量梯度下降（Batch Gradient Descent）：每次使用整个训练集计算梯度并更新参数。
随机梯度下降（SGD）：每次使用一个训练样本计算梯度并更新参数。
小批量梯度下降（Mini-Batch Gradient Descent）：每次使用训练集的一个小批量计算梯度并更新参数，是实践中最常用的梯度下降变种。

3. 神经网络的前向传播与反向传播

在神经网络中，训练的过程可以分为前向传播和反向传播两个阶段，梯度下降法正是通过反向传播计算并更新参数。

3.1 前向传播

前向传播是神经网络的输入通过各层传递，最终得到网络的输出。对于每一层 l，其输出由以下公式计算：

Z^(l) = W^(l) * A^(l-1) + b^(l)

A^(l) = σ(Z^(l))

其中：

A^(l-1) 是上一层的激活值。
W^(l) 和 b^(l) 分别是当前层的权重和偏置。
σ 是激活函数，常用的有 ReLU、Sigmoid、Tanh 等。

3.2 反向传播

反向传播的目标是计算损失函数相对于每个参数的梯度，并通过这些梯度更新权重和偏置。根据链式法则，反向传播的关键步骤是：

计算损失对输出的梯度：

∇L = 2 * (A^(L) - Y)

其中 A^(L) 是网络的预测输出，Y 是真实标签，L 是输出层。

逐层反向传播梯度：对每一层 l，根据链式法则计算输入、权重和偏置的梯度，并更新参数：

∇W^(l) = A^(l-1)^T * δ^(l)

δ^(l) = (W^(l+1))^T * δ^(l+1) * σ'(Z^(l))

其中：

- A^(l-1) 是上一层的激活值。
- W^(l) 和 b^(l) 是当前层的权重和偏置。
- σ'(Z^(l)) 是当前层激活函数的导数。
使用梯度更新参数：

W^(l) = W^(l) - η * ∇W^(l)

b^(l) = b^(l) - η * ∇b^(l)

4. 梯度下降法在神经网络训练中的应用

4.1 神经网络训练流程

神经网络训练的整个过程可以分为以下几个步骤：

初始化网络参数：随机初始化权重和偏置。
前向传播：计算网络输出并评估损失。
反向传播：计算每层的梯度并更新网络参数。
重复训练：不断迭代前向和反向传播，直到损失收敛。

4.2 使用梯度下降法训练神经网络

import numpy as np

class MLPClassifier(Layer):
# 多层感知机分类器，继承了基础的 Layer 类
def __init__(self):
# 构造函数，定义网络结构
self.network = []
# 初始化一个简单的三层网络：输入层（2个输入特征），隐藏层（5个神经元），输出层（1个输出）

# 第一层是一个 Dense 全连接层，输入维度为 2，输出维度为 5（隐藏层神经元数量）
self.network.append(Dense(2, 5))
# 随后连接一个激活函数层（Sigmoid 激活函数）
self.network.append(Sigmoid())
# 第二层是全连接层，从隐藏层到输出层，输出维度为 1
self.network.append(Dense(5, 1))
# 输出层也使用 Sigmoid 激活函数
self.network.append(Sigmoid())

def forward(self, X):
# 前向传播，计算各层的激活值
self.activations = [] # 存储每一层的激活值
input = X # 初始输入是 X
for layer in self.network:
# 遍历每一层，依次进行前向传播
self.activations.append(layer.forward(input))
# 保存当前层的输出（激活值）
input = self.activations[-1]
# 将当前层的输出作为下一层的输入

# 确保所有层的激活值都计算到了
assert len(self.activations) == len(self.network)
return self.activations # 返回所有层的激活值（列表）

def predict(self, X):
# 用于生成预测类别（0 或 1）
y_pred = self.forward(X)[-1]
# 获取最终输出层的激活值（预测概率）
y_pred[y_pred > 0.5] = 1
# 概率大于 0.5 的设置为类别 1
y_pred[y_pred <= 0.5] = 0
# 概率小于等于 0.5 的设置为类别 0
return y_pred # 返回二分类结果

def predict_proba(self, X):
# 用于生成预测概率
logits = self.forward(X)[-1]
# 返回最终输出层的激活值（概率）
return logits

def _train(self, X, y):
# 私有函数，执行一次前向和反向传播，并更新参数
self.forward(X)
# 前向传播，计算每一层的激活值
layer_inputs = [X] + self.activations
# 保存每一层的输入值（上一层的输出作为本层输入）
logits = self.activations[-1]
# 获取最终输出层的激活值（预测值）

# 定义损失函数（均方误差），并计算损失值
loss = np.square(logits - y.reshape(-1, 1)).sum()
# 均方误差公式：∑(预测值 - 实际值)^2
loss_grad = 2.0 * (logits - y.reshape(-1, 1))
# 计算损失对预测值的梯度，梯度为 2*(预测值 - 实际值)

# 反向传播，从最后一层开始更新参数
for layer_i in range(len(self.network))[::-1]:
# 从后向前遍历网络层（反向传播顺序）
layer = self.network[layer_i]
# 获取当前层
loss_grad = layer.backward(layer_inputs[layer_i], loss_grad)
# 调用当前层的 backward 方法，计算输入的梯度并更新参数

return np.mean(loss)
# 返回当前训练样本的平均损失值

def train(self, X, y):
#训练方法，通过多次迭代优化参数
for e in range(1000):
#训练100e次(固定迭代次数)
loss= self._train(X, y)
#每次迭代进行一次前向和反向传播
print(loss)
#输出当前迭代的损失值
return self
#返回自身(可以链式调用)