Pytorch-Adam算法解析

本文介绍了深度学习中常用的Adam优化算法,其结合了AdaGrad和RMSProp的优点,具有惯性保持和环境感知特性。作者详细讲解了算法的工作原理,并给出了PyTorch中Adam优化器的使用示例,包括关键参数和训练过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关注B站可以观看更多实战教学视频:肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频 (bilibili.com)

Hi,兄弟们,这里是肆十二,今天我们来讨论一下深度学习中的Adam优化算法。

Adam算法解析

Adam算法是一种在深度学习中广泛使用的优化算法,它的名称来源于适应性矩估计(Adaptive Moment Estimation)。Adam算法结合了两种扩展式的随机梯度下降法的优点,即适应性梯度算法(AdaGrad)和均方根传播(RMSProp)。它通过计算梯度的一阶矩估计和二阶矩估计,为不同的参数设计独立的自适应性学习率。

具体来说,Adam算法的特点和工作原理如下:

  1. 惯性保持:Adam算法记录了梯度的一阶矩,即过往所有梯度与当前梯度的平均,使得每一次更新时,梯度能平滑、稳定地过渡。这种惯性保持的特性使得算法能够适应不稳定的目标函数。
  2. 环境感知:Adam算法还记录了梯度的二阶矩,即过往梯度平方与当前梯度平方的平均。这体现了算法对环境的感知能力,并为不同的参数产生自适应的学习速率。
  3. 超参数解释性:Adam算法中的超参数具有很好的解释性,通常无需调整或仅需很少的微调。这些超参数包括学习率、一阶矩估计的指数衰减率、二阶矩估计的指数衰减率以及一个用于数值稳定的小常数。

在实际应用中,Adam算法已被证明在许多任务上,如计算机视觉和自然语言处理等深度学习应用中,具有优秀的性能。它特别适合处理大规模数据和参数的优化问题,以及非稳态目标和包含高噪声或稀疏梯度的问题。

总的来说,Adam算法是一种高效、易于实现的优化算法,它通过结合多种优化策略,为深度学习模型提供了更稳定、更快速的收敛性能。

Pytorch中的Adam算法

在PyTorch中,torch.optim.Adam 是实现 Adam 优化算法的类。以下是 Adam 优化器的一些关键参数解析:

  • params (iterable): 待优化参数的迭代器或者是定义了参数组的字典。
  • lr (float, optional): 学习率 (默认: 1e-3)。
  • betas (Tuple[float, float], optional): 用于计算梯度以及梯度平方的运行平均值的系数 (默认: (0.9, 0.999))。
  • eps (float, optional): 为了增加数值稳定性而添加到分母的一个项 (默认: 1e-8)。
  • weight_decay (float, optional): 权重衰减 (L2 惩罚) (默认: 0)。
  • amsgrad (boolean, optional): 是否使用 AMSGrad 变种算法,该算法在某些情况下能提供更好的收敛性 (默认: False)。

以下是一个简单的使用案例:

import torch  
import torch.nn as nn  
from torch.optim import Adam  
  
# 定义一个简单的模型  
model = nn.Sequential(  
    nn.Linear(10, 5),  
    nn.ReLU(),  
    nn.Linear(5, 2),  
)  
  
# 定义损失函数  
criterion = nn.CrossEntropyLoss()  
  
# 定义优化器,传入模型的参数和学习率等  
optimizer = Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)  
  
# 假设有输入数据和目标  
input_data = torch.randn(1, 10)  
target = torch.tensor([1])  
  
# 模型的训练循环(这里只展示一个迭代)  
for epoch in range(1):  # 通常会有多个epoch  
    # 前向传播  
    output = model(input_data)  
      
    # 计算损失  
    loss = criterion(output, target)  
      
    # 反向传播  
    optimizer.zero_grad()  # 清除之前的梯度  
    loss.backward()        # 计算当前梯度  
      
    # 更新权重  
    optimizer.step()       # 应用梯度更新  
  
    print(f'Epoch {epoch+1}, Loss: {loss.item()}')

在上面的例子中,我们首先定义了一个简单的两层神经网络模型,然后定义了交叉熵损失函数作为优化目标。接着,我们创建了一个 Adam 优化器实例,并将模型的参数、学习率以及其他可选参数传递给它。在训练循环中,我们执行了标准的前向传播、损失计算、反向传播以及权重更新步骤。在每次迭代结束时,我们打印出当前的损失值。

注意,实际应用中,训练循环会包含多个 epoch,并且通常会有数据加载、模型验证和保存等其他步骤。此外,学习率和其他超参数可能需要根据具体任务进行调整。

### 使用 `pytorch-image-models` 训练自定义图像分类模型 要利用 `pytorch-image-models` 库来训练自己的图像分类模型或数据集,可以按照以下方法操作: #### 准备环境 首先需要安装该库以及必要的依赖项。可以通过以下命令完成安装: ```bash pip install timm ``` `timm` 是 `pytorch-image-models` 的官方包名。 #### 数据准备 为了训练自定义的数据集,需将其整理成适合输入的形式。通常情况下,数据应分为训练集和验证集,并按类别存储在不同的文件夹下。例如: ``` dataset/ ├── train/ │ ├── class1/ │ │ └── img1.jpg │ ├── class2/ │ │ └── img2.jpg └── val/ ├── class1/ │ └── img3.jpg ├── class2/ └── img4.jpg ``` 这种结构便于加载器自动解析标签并分配到对应的类中[^1]。 #### 加载预训练模型 通过 `timm.create_model()` 方法可以选择所需的模型架构及其权重。以下是加载 ResNet50 预训练模型的示例代码: ```python import torch import timm model = timm.create_model('resnet50', pretrained=True, num_classes=NUM_CLASSES) ``` 其中 `pretrained=True` 表示使用 ImageNet 上预训练好的权重;而 `num_classes` 参数用于指定目标数据集中类别的数量[^3]。 #### 定义损失函数与优化器 对于标准的多分类任务,默认采用交叉熵作为损失函数。如果希望加入额外约束(如 L2 正则化),可自行组合实现[^4]: ```python criterion = torch.nn.CrossEntropyLoss() optimizer = torch.optim.Adam(model.parameters(), lr=LEARNING_RATE, weight_decay=L2_WEIGHT_DECAY) scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=STEP_SIZE, gamma=GAMMA) ``` 这里设置了 Adam 优化算法、初始学习率 (`LEARNING_RATE`) 和权重衰减系数 (`L2_WEIGHT_DECAY`) 。此外还配置了一个逐步降低学习速率的时间表(`StepLR`) ,每隔一定轮数乘以伽马因子减少当前值。 #### 构建数据管道 借助 PyTorch 提供的功能构建高效的数据读取流程至关重要。下面展示了一种典型做法: ```python from torchvision import transforms from torch.utils.data import DataLoader, Dataset transform_train = transforms.Compose([ transforms.RandomResizedCrop(IMAGE_SIZE), transforms.RandomHorizontalFlip(), transforms.ToTensor(), ]) train_dataset = CustomDataset(root='path/to/train/folder', transform=transform_train) train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True) ``` 此处假定存在名为 `CustomDataset` 的子类继承自 `torch.utils.data.Dataset` 并实现了具体的逻辑去访问本地磁盘上的图片资源。 #### 执行训练过程 最后一步就是编写循环迭代整个 epoch 来更新参数直至收敛为止。基本框架如下所示: ```python for epoch in range(NUM_EPOCHS): model.train() # 设置为训练模式 running_loss = 0.0 correct_preds = 0 total_samples = 0 for inputs, labels in train_loader: optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() _, preds = torch.max(outputs, dim=-1) running_loss += loss.item()*inputs.size(0) correct_preds += (preds==labels).sum().item() total_samples += inputs.size(0) scheduler.step() avg_loss = running_loss / total_samples accuracy = correct_preds / total_samples print(f'Epoch {epoch+1}/{NUM_EPOCHS}, Loss: {avg_loss:.4f}, Accuracy: {accuracy*100:.2f}%') ``` 上述脚本展示了单个周期内的主要计算步骤,包括前向传播预测结果、反向传播误差梯度以及评估性能指标等环节^。 ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

肆十二

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值