加速神经网络训练方法及不同Optimizer优化器性能比较

本文介绍了几种常用的加速神经网络训练的方法,包括随机梯度下降法(SGD)、小批量梯度下降法、加动量项的方法、AdamGrad、RMSprop及Adam等,并通过PyTorch框架进行了实验对比。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇博客主要介绍几种加速神经网络训练的方法。

我们知道,在训练样本非常多的情况下,如果一次性把所有的样本送入神经网络,每迭代一次更新网络参数,这样的效率是很低的。为什么?因为梯度下降法参数更新的公式一般为:


如果使用批量梯度下降法(一次性使用全部样本调整参数),那么上式中求和那项的计算会非常耗时,因为样本总量m是一个很大的数字。那么由此就有了第一种加速方法:随机梯度下降法,简称SGD。 它的思想是,将样本数据挨个送入网络,每次使用一个样本就更新一次参数,这样可以极快地收敛到最优值,但会产生较大的波动。还有一种是小批量梯度下降法,它的思想是,将数据拆分成一小批一小批的,分批送入神经网络,每送一批就更新一次网络参数。实验证明,该方法相比前两种梯度下降法,集成了两者的优点,是较好的一种加速方法。

第二类加速方法是加动量项的方法。我们知道,在更新网络参数时,如果前几次都是朝着一个方向更新,那么下一次就有很大的可能也是朝着那个方向更新,那么我们可以利用上一次的方向作为我这次更新的依据。打个比方,我想找到一座山的谷底,当我从山上往山下走,如果第一步是向下,第二步是向下,那么我第三步就可以走得快一些。从而以这种方式来加速网络训练。不仅如此,这种方法还可以从一定程度上避免网络陷入到局部极小值。


当出现以上情况时,网络走到A点,发现梯度已经为零,很可能不再继续往下走,直接以为A点就是最小值。当我们加上动量项,就可以利用前一时刻的动力,使其冲过A点,继续往下走。

第三类加速方法是AdamGrad,该方法自动地调整学习率的大小,该方法下的learning rate会根据历史的梯度值动态地改变学习率的大小。它需要计算更新到该t轮,参数的历史梯度的平方和。

第四种加速方法是RMSprop,它是一种自适应学习率算法,它与AdamGrad方法的不同之处在于,它只计算更新到该t轮,参数的历史梯度的平均值。

第五种加速方法是Adam,它也是一种自适应学习率调整算法,同时也是最广泛的一种方法。它利用的是梯度的一阶矩估计和二阶矩估计。该方法调整的学习率较为平稳,且预估结果较为准确。

当然,还有很多很多种加速神经网络训练的方法,以上只是较为常见的几种。


在PyTorch深度学习框架中,实现的优化器覆盖了Adadelta、Adagrad、Adam、Adamax、RMSprop、Rprop等等。

为了直观地比较各个优化器的性能,我借助PyTorch框架用一个神经网络来解决一个二次函数的拟合问题。

import torch
import torch.utils.data as Data
import torch.nn.functional as F
from torch.autograd import Variable
import matplotlib.pyplot as plt

torch.manual_seed(1)  #设置种子,使得结果可再现

LR = 0.01        #学习率learning rate
BATCH_SIZE = 32  #一个batch的大小
EPOCH = 12       #迭代轮数

#制造数据
x = torch.unsqueeze(torch.linspace(-1,1,1000),dim=1) #产生[-1,1]之间的100个值
y = x.pow(2) + 0.1*torch.normal(torch.zeros(x.size())) #y=x^2,再加上0.1倍的正态分布的扰动

plt.scatter(x.numpy(),y.numpy())
plt.show()    #展示样本数据

#批训练
torch_dataset = Data.TensorDataset(data_tensor=x,target_tensor=y)
loader = Data.DataLoader(dataset=torch_dataset,batch_size=BATCH_SIZE,shuffle=True,num_workers=2,)
#shuffle=True表示随机抽取,num_workers表示线程数量

class Net(torch.nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.hidden = torch.nn.Linear(1,20)  #隐层20个神经元
        self.predict = torch.nn.Linear(20,1) #输出层1个神经元,表示预测的结果

    def forward(self,x):
        x = F.relu(self.hidden(x)) #隐层设置relu激活函数
        x = self.predict(x)        #输出层直接线性输出
        return x

#为每个优化器创建一个Net
net_SGD = Net()
net_Momentum = Net()
net_RMSprop = Net()
net_Adam = Net()
nets = [net_SGD,net_Momentum,net_RMSprop,net_Adam] #将其放入一个列表中

opt_SGD = torch.optim.SGD(net_SGD.parameters(),lr=LR)
opt_Monentum = torch.optim.SGD(net_Momentum.parameters(),lr=LR,momentum=0.8)
opt_RMSprop = torch.optim.RMSprop(net_RMSprop.parameters(),lr=LR,alpha=0.9)
opt_Adam = torch.optim.Adam(net_Adam.parameters(),lr=LR,betas=(0.9,0.99))
optimizers = [opt_SGD,opt_Monentum,opt_RMSprop,opt_Adam]

#定义误差函数
loss_func = torch.nn.MSELoss()
losses_his = [[],[],[],[]]

for epoch in range(EPOCH):
    print('Epoch:',epoch)
    for step,(batch_x,batch_y) in enumerate(loader):
        b_x = Variable(batch_x)
        b_y = Variable(batch_y)

        for net,opt,l_his in zip(nets,optimizers,losses_his):
            output = net(b_x)
            loss = loss_func(output,b_y)
            opt.zero_grad()  #为下一次计算梯度清零
            loss.backward()  #误差反向传播
            opt.step()       #运用梯度
            l_his.append(loss.data[0])

labels = ['SGD','Momentum','RMSprop','Adam']
for i,l_his in enumerate(losses_his):
    plt.plot(l_his,label=labels[i])
plt.legend(loc='best')  #图例放在最佳位置
plt.xlabel('Steps')
plt.ylabel('Loss')
plt.ylim((0,0.2))
plt.show()

原始的训练数据可视化:


不同Optimizer优化器性能比较的结果:


结果分析:从上图中,我们可以看出,SGD明显波动较大,Adam方法效果最优。当然每种优化器的性能还与训练数据的分布有很大的关系。


### 神经网络训练与优化方法 神经网络训练目标是通过调整模型参数来最小化损失函数,从而提高模型在测试集上的泛化能力。这一过程中涉及的主要方法包括梯度下降及其变体、反向传播算法以及更高级的优化策略。 #### 基础训练方法 梯度下降法是一种核心的优化手段,它基于损失函数相对于权重的导数来进行参数更新[^1]。具体而言,该方法沿着负梯度的方向逐步减小损失值。然而,在大规模数据场景下,传统的批量梯度下降可能效率较低,因此引入了随机梯度下降(SGD)和小批量梯度下降(Mini-batch Gradient Descent),这些改进版本能够显著提升计算性能加速收敛。 #### 反向传播机制 为了实现高效的梯度计算,反向传播算法被广泛应用于现代深度学习框架中。此算法利用链式法则自动求解每一层权值对应的偏导数值,进而支持复杂的多层架构设计。借助于这种技术,即使面对深层网络结构也能保持较高的运算精度。 #### 高级优化器介绍 随着研究深入,更多先进的优化方案相继问世,其中 Adam 是目前最为流行的一种自适应学习率方法之一[^3]。相比于标准 SGD 或 Momentum 方法,Adam 不仅具备快速收敛特性,还能有效应对诸如学习率退化等常见难题。此外,RMSProp 和 Adagrad 等也是值得关注的选择,它们各自针对特定应用场景提供了独特优势。 #### 结合遗传算法进行结构探索 除了上述常规路径外,还有学者尝试将进化类启发式搜索融入到深度学习体系里,比如采用遗传算法去自动化寻找最佳网络拓扑配置。这种方法能够在一定程度上缓解人工调参带来的负担,并有可能发现传统方式难以触及的新颖解决方案。 ```python import tensorflow as tf from tensorflow.keras.optimizers import Adam model = tf.keras.Sequential([ tf.keras.layers.Dense(64, activation='relu', input_shape=(input_dim,)), tf.keras.layers.Dense(output_dim) ]) optimizer = Adam(learning_rate=0.001) model.compile(optimizer=optimizer, loss='mse', metrics=['accuracy']) ``` 以上代码片段展示了如何使用 TensorFlow 中内置的 Adam 优化器完成一个简单的全连接神经网络定义及编译流程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值