深度学习优化算法实践：SGD到Adam及余弦退火-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_19457459/article/details/113610508

这篇博客总结了深度学习中的优化算法，包括SGD、Momentum、AdaGrad、RMSProp、AdaDelta、Adam等，并介绍了学习率衰减策略如warmup和余弦退火。博主使用PyTorch实现了这些算法，并在飞机机翼噪音数据集上进行了实验。通过学习率变化图和误差损失图，展示了不同算法的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

本文主要是对动手学深度学习中第7章优化算法的总结，对常见的几种优化算法用pytorch做了简单实现，包括SGD,momentum, AdaGrad, RMSProp, AdaDelta, Adam和学习率衰减策略warmup, 余弦退火(Cosine Annealing)
用到的数据集为：飞机机翼噪音数据集https://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noise

参考文档：
https://zh.d2l.ai/chapter_optimization/minibatch-sgd.html
https://blog.youkuaiyun.com/weixin_35848967/article/details/108493217

各个算法的理论公式

SGD

梯度计算：
在这里插入图片描述
参数更新：

momentum

在这里插入图片描述

AdaGrad

s状态更新
在这里插入图片描述
参数更新：

RMSProp

在这里插入图片描述

AdaDelta

在这里插入图片描述

Adam

在这里插入图片描述

余弦退火

在这里插入图片描述

代码

import time
import numpy as np
import math
from matplotlib import pyplot as plt

import torch
import torch.utils.data as data
import torch.nn as nn
import torch.optim as optim
import torch.optim.lr_scheduler as lr_scheduler


class LinearModel(nn.Module):
    def __init__(self, ci, nc):
        super(LinearModel, self).__init__()
        self.fc1 = nn.Linear(ci, nc)

    def forward(self, x):
        x = self.fc1(x)
        return x

    def init_params(self):
        for m in self.modules():
            if isinstance(m, nn.Linear):
                nn.init.xavier_uniform_(m.weight)
                m.bias.data.zero_()


class AirFoilDatasets(data.Dataset):
    def __init__(self, path):
        super(AirFoilDatasets, self).__init__()

        self.data = np.genfromtxt(path, delimiter='\t')
        self.data = (self.data - self.data.mean(axis=0)) / self.data.std(axis=0)
        self.data = self.data[:1500, :]

    def __getitem__(self, index):
        features = self.data[index, :-1]
        labels = self.data[index, -1]

        return torch.tensor(features, dtype