反向传播常用优化器

github博客传送门
博客园传送门

计算出损失值后,这个损失值越小越好,梯度下降的算法就用在这里,帮助寻找最小的那个损失值,从而反推出 w 和 b 达到优化模型的效果

常用的梯度下降法可以分为:

  1. 批量梯度下降:遍历全部数据集算一次损失,计算量大,计算速度慢,不支持在线学习
  2. 随机梯度下降:每看一个数据,就算一下损失,速度快,收敛性能不太好,较低点震荡比较剧烈
  3. 小批量梯度下降法:将数据分为多批,按批更新参数,相对前两种,这种方法比较折中
# 一般的梯度下降算法
Optimizertf.train.GradientDescentoptimizer(learning_rate,use_locking=False,name='Gradientdescent')
# 创建Adadelta优化器
tf.train.AdadeltaOptimizer(learning_rate=0.001,rho=0.95,epsilon=1e-08,use_locking=False,name='Adadelta')
# 创建Adagrad优化器
tf.train.AdagradOptimizer(learning_rate,initial_accumulator_value=0.1,use_locking=False,name='Adagrad')
# 创建momentum优化器momentum:动量,一个Tensor或者浮点值
tf.train.MomentumOptimizer(learning_rate,momentum,use_locking=False,name='Momentum',use_nesterov=False)
# 创建Adam优化器
tf.train.AdamOptimizer(learning_rate=0.001,beta1=0.9,beta2=0.999,epsilon=1e-08,use_locking=False,name='Adam')
# 创建FTRL算法优化器
tf.train.FtrlOptimizer(learning_rate,learning_rate_power=-0.5,initial_accumulator_value=0.1,l1_regularization_strength=0.0,l2_regularization_strength=0.0,use_locking=False,name='Ftrl')
# 创建RMSProp算法优化器
tf.train.RMSPropOptimizer(learning_rate,decay=0.9,momentum=0.0,epsilon=1e-10,use_locking=False,name='RMSProp')
### VGG模型中的反向传播优化方法 VGG模型是一种经典的卷积神经网络架构,在图像分类等领域表现优异。其训练过程依赖于反向传播算法来调整网络参数,从而最小化损失函数[^2]。以下是针对VGG模型中反向传播的一些常见优化方法和技术: #### 1. **学习率调度** 学习率是影响模型收敛速度的重要超参数之一。通常采用动态学习率策略,例如逐步衰减法或余弦退火法。通过周期性降低学习率,可以有效提升模型的稳定性并加速收敛[^4]。 ```python import torch.optim as optim optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1) for epoch in range(num_epochs): scheduler.step() ``` #### 2. **动量优化器 (Momentum)** 为了克服局部极小值和鞍点的影响,引入动量项可以帮助梯度下降更快地穿越平坦区域。SGD with Momentum 是一种常用的方法,它利用历史梯度的方向平滑更新路径。 ```python optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) ``` #### 3. **权重初始化** 良好的权重初始化能够显著改善模型性能。对于深层网络如VGG,Xavier 初始化或 He 初始化被广泛应用于激活函数 ReLU 的场景下,以缓解梯度消失问题。 ```python def init_weights(m): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight.data, nonlinearity='relu') model.apply(init_weights) ``` #### 4. **批量归一化 (Batch Normalization)** BN 层通过对每一批次的数据进行标准化处理,使得每一层输入分布更加稳定,从而加快训练进程并允许更高的学习率设置。 ```python class VGGBlock(nn.Module): def __init__(self, in_channels, out_channels): super(VGGBlock, self).__init__() self.conv = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1), nn.BatchNorm2d(out_channels), # 添加 BN 层 nn.ReLU(inplace=True) ) ``` #### 5. **正则化技术** 为了避免过拟合现象的发生,L2 正则化(即权重衰减)以及 Dropout 方法常用于约束模型复杂度。这些措施有助于增强泛化能力。 ```python criterion = nn.CrossEntropyLoss(weight_decay=0.0005) dropout_layer = nn.Dropout(p=0.5) ``` #### 6. **混合精度训练** 借助 NVIDIA 提供的 Apex 库或者 PyTorch 内置支持,可以在 GPU 上实施 FP16 计算模式下的混合精度训练方案,既节省内存又缩短迭代时间。 ```python from torch.cuda.amp import GradScaler, autocast scaler = GradScaler() for data, target in dataloader: optimizer.zero_grad() with autocast(): output = model(data) loss = criterion(output, target) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update() ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值