torch.optim.SGD(net.parameters())

原创于 2025-06-24 16:53:03 发布 · 338 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #人工智能 #深度学习 #机器学习

机器学习专栏收录该内容

88 篇文章

订阅专栏

torch.optim.SGD 基础用法

torch.optim.SGD 是 PyTorch 中实现随机梯度下降（Stochastic Gradient Descent）的优化器。基础用法是传入待优化参数和学习率：

optimizer = torch.optim.SGD(net.parameters(), lr=0.01)

关键参数说明

params：需要优化的参数，通常通过 model.parameters() 获取
lr：学习率（默认 0.01）
momentum：动量因子（默认 0）
dampening：动量抑制因子（默认 0）
weight_decay：权重衰减（L2 惩罚，默认 0）
nesterov：是否使用 Nesterov 动量（默认 False）

典型配置示例

带有动量项的 SGD 优化器：

optimizer = torch.optim.SGD(
    net.parameters(), 
    lr=0.01, 
    momentum=0.9,
    weight_decay=1e-4
)

使用方法

在训练循环中配合梯度清零和参数更新：

for inputs, targets in dataloader:
    optimizer.zero_grad()
    outputs = net(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()

注意事项

学习率需要根据具体任务进行调整，可配合学习率调度器使用：

scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

SGD 适用于多数深度学习任务，在批归一化等技术的配合下能取得较好效果。对于稀疏数据或需要自适应学习率的场景，可考虑 Adam 等其他优化器。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

土豆羊626

关注关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

torch.optim.SGD参数详解（除nesterov）

LJR的博客

01-22

3万+

torch pytorch SGD 参数详解 weight_decay 权重衰退权重衰退与学习率的区别 weight_decay和learning_rate的区别动量 momentum

【PyTorch】torch.optim介绍

最新发布

王多鱼的梦想

02-16

1235

`torch.optim` 是 PyTorch 中用于优化神经网络模型参数的模块，它实现了多种常见的优化算法（如 SGD、Adam、RMSprop 等），通过计算损失函数对参数的梯度并根据梯度更新模型的权重。

参与评论您还未登录，请先登录后发表或查看评论

torch.optim的灵活使用(包括重写SGD，加上L1正则)

tsq292978891的博客

03-28

2193

torch.optim的灵活使用 1. 基本用法：要构建一个优化器Optimizer，必须给它一个包含参数的迭代器来优化，然后，我们可以指定特定的优化选项，例如学习速率，重量衰减值等。注：如果要把model放在GPU中，需要在构建一个Optimizer之前就执行model.cuda()，确保优化器里面的参数也是在GPU中。例子： optimizer = optim.SGD(...

torch.optim.SGD()

echo_gou的博客

08-09

1万+

其中的SGD就是optim中的一个算法：随机梯度下降算法 torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持，并且接口具备足够的通用性，使得未来能够集成更加复杂的方法。为了使用torch.optim，你需要构建一个optimizer对象。这个对象能够保持当前参数状态并基于计算得到的梯度进行参数更新。动手学深度学习-多层感知机中：updater = torch.optim.SGD(params, lr=lr)。其中的updater就是一个optimizer对象。 .

torch.optim.sgd参数详解

weixin_42599908的博客

02-18

816

SGD(随机梯度下降)是一种更新参数的机制，其根据损失函数关于模型参数的梯度信息来更新参数，可以用来训练神经网络。torch.optim.sgd的参数有：lr(学习率)、momentum(动量)、weight_decay(权重衰减)、nesterov(是否使用Nesterov动量)等。 ...

torch.optim.SGD

A2000613的博客

01-12

3308

torch.optim.SGD

关于torch.optim的灵活使用详解(包括重写SGD,加上L1正则)

09-17

PyTorch 提供了一个强大的 `torch.optim` 模块，它包含了多种优化算法，如随机梯度下降(SGD)、Adam、RMSprop 等。本文将详细介绍 `torch.optim` 的使用方法，并着重讲解如何根据需求自定义优化器，例如添加 L1 正则...

浅谈Pytorch torch.optim优化器个性化的使用

09-17

new_optimizer = optim.SGD(net.parameters(), lr=optimizer.param_groups[0]['lr'] * 0.1) ``` 总之，PyTorch的`torch.optim`模块提供了高度的灵活性，允许我们根据实际需求定制优化器的配置。这包括为不同网络...

python torch.optim.SGD

Fighting Hua

04-21

5973

[torch]optim.sgd学习参数 torch入门笔记14:Torch中optim的sgd(Stochastic gradient descent)方法的实现细节 pytorch中使用torch.optim优化神经网络以及优化器的选择神经网络优化器，主要是为了优化我们的...

PyTorch优化算法：torch.optim.SGD的参数详解和应用

weixin_51659315的博客

01-19

1万+

torch.optim.SGD 是 PyTorch 中用于实现随机梯度下降（Stochastic Gradient Descent，SGD）优化算法的类。示例中，创建了一个线性模型，使用均方误差损失，并使用 torch.optim.SGD 作为优化器。它是一个正数，控制每次参数更新的步长。（默认值为 0）: 动量（momentum）是一个用于加速 SGD 收敛的参数。（默认值为 0）: 阻尼项，用于减缓动量的速度。（必须参数）: 这是一个包含了需要优化的参数（张量）的迭代器，例如模型的参数。

【PyTorch】torch.optim.SGD 类：随机梯度下降（SGD）优化器

彬彬侠的博客

01-17

1511

torch.optim.SGD 是 PyTorch 中实现的随机梯度下降（SGD）优化器，用于更新模型参数。它是最基础也是最常见的优化算法之一。SGD 在训练神经网络时通过最小化损失函数来调整网络权重。SGD 是一个基于批量的优化方法，每次更新只基于一个样本（或者一个小批量）。相比于批量梯度下降（使用所有样本计算梯度），SGD 每次只计算一个样本的梯度，因而可以节省计算资源，尤其是在数据集较大的时候。

PyTorch学习之 torch.optim 的6种优化器及优化算法介绍

地山谦的博客

04-16

3万+

1. PyTorch 中的optimizer import torch import torch.nn.functional as F import torch.utils.data as Data import matplotlib.pyplot as plt import numpy as np 1. 结合PyTorch中的optimizer谈几种优化方法 1.1 SGD(stochasti...

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

热门推荐

xian0710830114的专栏

09-06

7万+

这是一个系列，以Pytorch为例，介绍所有主流的优化器，如果都搞明白了，对优化器算法的掌握也就差不多了。作为系列的第一篇文章，本文介绍Pytorch中的SGD、ASGD、Rprop、Adagrad，其中主要介绍SGD和Adagrad。因为这四个优化器出现的比较早，都存在一些硬伤，而作为现在主流优化器的基础又跳不过，所以作为开端吧。

torch.optim.SGD参数学习率lr、动量momentum、权重衰减weight_decay的解析

jjw_zyfx的博客

09-22

3万+

torch.optim.SGD(net.parameters(), lr=lr, momentum=0.9,weight_decay=wd) 第一个参数包括权重w，和偏置b等是神经网络中的参数，也是SGD优化的重点第二个参数lr是学习率第三个参数momentum是冲量第四个参数weight_decay是权重衰减另外可点击参考此链接 ...

【无标题】torch.optim.SGD参数详解

蜗牛在奔跑的博客

05-01

2944

在训练过程中，我们使用optimizer.zero_grad()将梯度设置为0，然后使用model(inputs)得到模型输出，用损失函数计算输出和目标之间的误差，再用误差对模型参数进行反向传播，最后使用optimizer.step()更新参数。torch.optim.SGD是PyTorch中实现的Stochastic Gradient Descent(SGD)优化器，用于更新神经网络中的参数，以最小化损失函数，从而提高模型的精度。- lr：学习率（learning rate），控制每次参数更新的步长。

Pytorch学习笔记--常用函数torch.optim.SGD()总结3

牵一只蜗牛去散步

11-22

3592

不同的初始化参数往往会导致不同的结果，当获得较好结果时我们通常希望这个结果是可以复现的。在pytorch中，通过设置随机数种子确保每次代码运行时初始化操作都相同，从而在相同的算法或神经网络程序中，确保运行的结果也相同。2--torch.manual_seed()函数和torch.cuda.manual_seed()函数。设置种子，确保每次实验生成的随机数固定，即初始化相同；J(θ)表示损失函数；了解L2正则化的作用，即如何避免过拟合，权重衰减通过。m表示冲量因子，l表示学习率；理解。

神经网络——torch.optim优化器的使用

m0_51816252的博客

06-05

1463

optimizer.step()是大多数优化器支持的简化版本。一旦使用例如计算梯度，就可以调用该函数。 backward()反向传播。

torch.optim.sgd.SGD

12-06

`torch.optim.sgd.SGD`是PyTorch中的一个优化器类，用于实现随机梯度下降（SGD）算法。它可以用于训练神经网络模型，通过不断地迭代来更新模型的参数，使得模型的损失函数逐渐减小，从而提高模型的准确性。以下是一个使用`torch.optim.sgd.SGD`的例子： ```python import torch import torch.optim as optim # 定义模型和损失函数 model = torch.nn.Linear(10, 1) criterion = torch.nn.MSELoss() # 定义优化器 optimizer = optim.SGD(model.parameters(), lr=0.01) # 训练模型 for epoch in range(100): # 前向传播 inputs = torch.randn(1, 10) labels = torch.randn(1, 1) outputs = model(inputs) loss = criterion(outputs, labels) # 反向传播 optimizer.zero_grad() loss.backward() optimizer.step() # 打印损失函数 print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, 100, loss.item())) ``` 在这个例子中，我们首先定义了一个包含10个输入和1个输出的线性模型，以及一个均方误差损失函数。然后，我们使用`optim.SGD`定义了一个SGD优化器，将模型的参数作为优化器的参数传入。在训练过程中，我们使用前向传播计算模型的输出和损失函数，然后使用反向传播计算梯度，并使用优化器更新模型的参数。最后，我们打印出每个epoch的损失函数。