32-累积参数更新（变相增大batchsize）

机器人图像处理

已于 2025-12-14 20:38:28 修改

阅读量17

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习算法与模型文章标签：深度学习 pytorch 人工智能

于 2025-12-14 20:13:18 首次发布

本文链接：https://blog.youkuaiyun.com/zqb_123/article/details/155917246

深度学习算法与模型专栏收录该内容

34 篇文章 ¥59.90 ¥99.00

订阅专栏

超级会员免费看

一、整体架构

1.1 累加参数设置


nbs = 64  # nominal batch size
accumulate = max(round(nbs / total_batch_size), 1)  # accumulate loss before optimizing
hyp[

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

机器人图像处理

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

pytorch骚操作之梯度累加，变相增大batch size

weixin_43646592的博客

11-30

7391

梯度累加其实是为了变相扩大batch_size，用来解决显存受限问题。有牛x的显卡就不用考虑这骚操作。

变相增大BatchSize——梯度累积

Billie使劲学的博客

12-11

784

pytorch每次forward完都会得到一个用于梯度回传的计算图，pytorch构建的计算图是动态的，其实在每次backward后计算图都会从内存中释放掉，但是梯度不会清空的。看网上的帖子有讨论对BN层是否有影响，因为BN的估算阶段（计算batch内均值、方差）是在forward阶段完成的，那真实的batch_size放大4倍效果肯定是比通过梯度累加放大4倍效果好的，毕竟计算真实的大batch_size内的均值、方差肯定更精确。同时，因为累计了4个batch，那学习率也应该扩大4倍，让更新的步子跨大点。

参与评论您还未登录，请先登录后发表或查看评论

小内存大 batch——梯度累积

即事多所欣的博客

02-18

909

梯度累积（Gradient Accumulation）是一种训练技巧，它可以让我们在显存不那么大的 GPU 上用更大的 batch size 进行训练。

在Backbone不变的情况下，若显存有限，如何增大训练时的batchsize？

weixin_38646522的博客

05-13

722

大家好，我是灿视。这道题是之前在我之前的那个AttackOnAIer上发过的一题，来自群友在商汤面试的真题，今天重新梳理下，供大家参考。问：在Backbone不变的情况下，若显存有限，如何增大训练时的batchsize？现在给出一些回答，供各位参考哈～如果各位有别的想法，可以在留言区留言哈！使用Trick，节省显寸使用inplace操作，比如relu激活函数，我们可以使用inplace=True 每次循环结束时候，我们可以手动删除loss，但是这样的操作，效果有限。使用float16混合精

【梯度下降】梯度会累积会有什么影响？什么时候会用到梯度累积？为什么累计多个小批次的梯度再进行模型参数更新会达到和直接使用大批量数据得到梯度一样的结果呢？

BetrayFree的博客

05-27

2349

通过梯度累积，可以使用较小的批量数据，累计多个小批次的梯度再进行模型参数更新。然而，在显存限制的情况下，通过梯度累积可以在多个小批量数据上计算梯度，再进行一次参数更新，达到类似于大批量数据训练的效果。：如果梯度累积，每次计算出的梯度将包含当前批次数据的梯度和之前所有批次数据的梯度。梯度累积的原理在于累积多个小批次的梯度再进行模型参数更新，可以近似模拟大批量数据的训练效果。：由于梯度爆炸，模型参数的更新方向和幅度可能变得随机且过大，从而破坏模型的训练，甚至使得模型性能变得很差。梯度会累积会有什么影响？

1.6 大模型监督微调（SFT）的参数设置和训练技巧

qq_68188306的博客

08-15

1330

前面的小节详细介绍了大模型SFT的数据部分，包括合成、过滤、多样性等等，数据极大的影响着大模型SFT的效果。介绍完数据从这一节开始具体介绍大模型SFT的过程，包括参数设置、训练策略、训练技巧、效果评估等等。

MachineLearning小汇总----持续更新......

CoderBoom的博客

03-27

1046

目标函数定义 : 1. GBDT(Gradient Boosting Decision Tree) Gradient Boosting是一种Boosting的方法 , 它的主要思想是每一次建立模型是在之前建立模型损失函数的梯度下降方向。损失函数式评价模型性能(一般为拟合程度+正则项) , 认为损失函数越小 , 性能越好。而让损失函数持续下降 , 就能使得模型不断提升性能 , 其最好的方法就是使...

pytorch梯度累积

qq_54802783的博客

09-05

757

pytorch每次前向传播后得到反向传播的计算图，其中变量的梯度不会清空，如果没有optimizer.zero_grad(),将会对变量的梯度进行累积。设置了accumulation_steps = 4，只有当小batch运算四次的时候才会进行清空梯度，更新参数，相当于扩大了4倍batch_size。的计算，导致记忆的历史mean和var的视野会缩短，更久远的统计信息占比的权重会更小，所以相比于大batch,梯度累积方式的bn层计算的。讲一下pytorch梯度累积对bn层影响的看法。

【显存优化】深度学习显存优化方法

AI爱好者的博客，分享计算机领域相关知识

06-27

7415

深度学习gpu的显存至关重要，显存过小的话，模型根本无法跑起来，本文介绍几种显存不足时的优化方法，能够降低深度学习模型的显存要求。

【文献阅读】DP-Site：一种基于双重深度学习的蛋白质-肽相互作用位点预测方法

weixin_42038527的博客

12-16

763

研究团队开发了一款名为DP-Site的AI工具，仅需分析蛋白质的氨基酸序列（“设计图”），就能精准锁定小分子药物的潜在“靶点”。DP-Site的核心创新在于其 “双专家会诊”模式。一位是“图像专家”，擅长分析序列的局部结构特征；另一位是“语义专家”，擅长理解序列的全局上下文信息。两者协同工作，使其预测综合性能（F1分数）达到0.661，超越此前所有方法。

【CNN与卷积神经网络（吴恩达）】卷积神经网络学习笔记

qq_62361050的博客

12-12

1062

池化层类似卷积运算，在这里举一个最大池化的例子，即在一个4x4的图像中采用一个2x2的核，这个《核》只是对对应区域进行取最大值计算，以步长为2进行移动计算，在每次计算中取区域中的最大值，这样就可以提取出图像中的最显著的特征。以下是对于三维卷积中一些尺寸数据的描述，和二维卷积相似，只不过在n x n后面新加了一个尺寸数据nc，这个nc即表示图像的通道数，剩余对于输出图像的尺寸的计算公式和二维卷积下的一模一样。这种卷积下的卷积核和二维卷积是一样的，只不过由于有三个图像矩阵，所以应该对应有三层卷积核，即。

基于深度学习的肾结石检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)

ningfoshao8678的博客

12-16

906

本文介绍了基于YOLO目标检测算法开发的肾结石检测系统。该系统支持图片、视频、文件夹批量及摄像头实时检测，包含用户登录、多模型切换等功能。技术栈采用Python3.10、PyQt5和SQLite，对比了YOLOv5/v8/v11/v12四种模型性能，其中YOLO12n精度最高(mAP40.6%)，YOLO11n速度最快(56.1ms)。系统在17000张肾脏影像数据集上训练，mAP@0.5达90%，F1值0.86，能有效识别肾结石位置并显示置信度。

深度学习中 z-score 标准化理解

musk1212的博客

12-11

1165

摘要： z-score标准化是深度学习中关键的数据预处理方法，通过将数据转换为均值为0、标准差为1的分布，有效提升模型训练效率并消除特征量纲差异。其核心公式为z=(x-μ)/σ，适用于加速收敛、平衡多特征权重及异常值检测等场景。与Min-Max归一化相比，z-score对异常值更鲁棒，是神经网络训练的首选方法。需注意避免数据泄露问题（测试集必须使用训练集的μ和σ），并处理标准差为0的特殊情况。批量归一化(BatchNorm)是z-score的动态扩展版本。

深度学习理论与实战：反向传播、参数初始化与优化算法全解析

2501_92613722的博客

12-16

843

深度学习训练核心闭环：精准算梯度、合理初始化参数、高效更参数反向传播：链式求导为基，从损失反向回溯算梯度，附 Sigmoid 实例参数初始化：讲手动 / 经典方法，Module 初始化技巧与核心原则、选择优化算法：SGD 为基，动量法 / Adagrad/RMSProp/Adadelta/Adam 解析与对比核心总结：反向传播、初始化、优化算法要点及训练细节

机器学习与深度学习基础（五）：深度神经网络经典架构简介

TracyCoder的博客

12-11

842

本文学习要点：1.深度神经网络分层架构：全连接层卷积层池化层2.深度神经网络代表:CNN：CNN、AlexNet、VGG-Net、GoogLeNet（Inception）、ResNet（残差连接）编码器-解码器架构：序列到序列模型（Seq2Seq）

【深度学习新浪潮】用AI工具解析美联储新闻，搭建量化投资分析流水线

最新发布

智能守恒_HengAI

12-16

332

用AI工具解析美联储新闻，本质是将“定性政策信号”转化为“定量分析指标”，让投资决策更高效、更客观。本文搭建的流水线仅需50行核心代码，即可实现从新闻采集到资产预测的全流程自动化。未来可进一步优化的方向：一是引入大语言模型（如GPT-4o）做政策文本深度解读，挖掘“点阵图分歧”“官员立场博弈”等隐性信息；二是接入实时交易数据，构建“新闻→信号→交易”的闭环策略。

【AI基础篇】认识RNN

EscaRC的博客

12-13

797

—即前后输入有依赖关系的数据，如句子（单词序列）、股票价格（时间序列）、视频（帧序列）等。RNN 的核心设计目标是让神经网络能够处理。在实践中存在严重缺陷，这也推动了其发展。为了解决长期依赖问题，研究者引入了。

# Python 深度学习 初始化（超参数、权重、函数输入列表）避坑指南：None 占位、可变共享与工厂函数

weixin_42319617的博客

12-13

465

「锁种子 + 模板 → **80%** bug 减少」 | 有真实数据即可统计「bit-diff 次数 / 累积异常样本数」，给出**实测百分比** | 「锁种子后 bit-diff 从 12% → 0%，累积样本误差从 1.7% → 0%」 || 「可变共享会导致**神秘**bug」 | 真实跑 epoch 就能立刻看到 `list` 长度递增 / 指标漂移，不再「神秘」 | 「可变共享会导致**可观测**累积错误，第 1 个 epoch 就能发现」 |

【深度学习】【目标检测】使用RetinaNet-R101-FPN模型实现建筑设备物体检测_1

adaAS1414315的博客

12-14

614

本文介绍了使用RetinaNet-R101-FPN模型实现建筑设备目标检测的方法。首先阐述了项目背景与意义，指出自动设备检测系统可提高建筑工地管理效率。数据集包含6类常见建筑设备共10000张图像，采用PASCAL VOC格式标注。详细讲解了数据预处理流程和增强策略，包括随机翻转、色彩抖动等技术。重点分析了RetinaNet模型架构，特别是其骨干网络ResNet101、特征金字塔网络(FPN)和Focal Loss设计原理。提供了实验环境配置和训练参数设置，展示了训练过程监控方法。该研究为建筑工地自动化管理

python train.py --dataset tofd --isize 128 --niter 30 --ndf 128 --ngf 128 --batchsize 32 --save_test_images

02-19

### 使用 `python train.py` 进行模型训练为了使用 `train.py` 脚本进行模型训练并设置指定参数，可以按照以下方式构建命令： ```bash python train.py \ --batch-size 32 \ --save-dir results/test_images \ --cfg models/custom_model.yaml \ --weights weights/pretrained_weights.pt \ --device cuda:0 \ --project custom_project_name \ --name test_run ``` 上述命令设置了数据集路径、图像尺寸、迭代次数、批量大小以及其他配置选项。具体解释如下： - 数据集 (`dataset`) 设置为 Tofd 的 YAML 文件位置[^1]。 - 图像尺寸 (`isize`) 设定为 128 像素 × 128 像素[^2]。 - 训练轮数 (`niter`) 定义为 30 次迭代[^2]。 - 批量处理数量 (`batchsize`) 是每次传递给网络的数据样本数目，在这里设定为 32。对于其他特定变量如 `ndf`, `ngf` 等，通常是在定义模型架构时通过修改配置文件来实现而不是作为命令行参数传入。如果这些参数确实可以通过命令行调整，则需查阅官方文档确认支持哪些额外的命令行标志位。要保存测试图像，可以在调用中加入 `--save-dir` 参数指明存储目录的位置。 #### 关于自定义模型结构中的 NDG 和 NDF 参数当涉及到神经网络内部细节比如生成器和判别器的具体层数或滤波器数量(`ndf`,`ngf`)时，这往往不是由简单的命令行参数控制而是写在配置文件里或是直接编码到 Python 类里面去。因此建议查看所使用的框架是否有提供相应的接口用于动态改变这些超参；如果没有的话可能就需要手动编辑源码或者创建新的配置文件。