【MindSpore易点通】模型训练中的梯度下降

最新推荐文章于 2025-05-14 07:07:36 发布

xiao | yang

最新推荐文章于 2025-05-14 07:07:36 发布

阅读量981

点赞数 1

CC 4.0 BY-SA版权

文章标签：机器学习深度学习人工智能

本文链接：https://blog.youkuaiyun.com/xi_xiyu/article/details/126777894

本文介绍了机器学习和深度学习中常用的优化算法——梯度下降法，详细阐述了其基本过程，并对比了批量、随机和小批量三种梯度下降法的特点。重点在于理解梯度下降如何寻找损失函数的最小值，以及不同梯度下降方法在实际应用中的选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

在机器学习和深度学习中，需要对训练中的模型构建损失函数，这样才能在训练过程中找到最优的参数。梯度下降法是较常使用的优化算法，在求解过程中，需要求解损失函数的一阶导数。

通俗理解就是：

从loss的某一点出发；
找到当前最陡的坡（找梯度最大的方向）；
朝最陡方向走一步（一次迭代后，一步的大小为步长）；
循环执行2和3，走到最低点。

常见的梯度下降有三种不同的计算方法：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）。接下来，我们将对这三种不同的梯度下降法进行探讨。

梯度下降的基本过程

以简单的线性回归模型为例：

1、假设数据集中有m个样本，那么损失函数就是

2、初始化θ0,θ1，...,θm, 算法终止距离ε，以及步长α。可以将所有的θ初始化为0，将步长初始化为1。那么当前位置损失函数的梯度为：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiao | yang

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

彻底学会系列：一、机器学习之梯度下降（1）

挑大梁的专栏

03-17

1266

是一种优化算法，用于最小化一个函数的值，特别是用于训练机器学习模型中的参数，其基本思想是通过不断迭代调整参数的值，使得函数值沿着梯度的反方向逐渐减小，直至达到局部或全局最小值。学习率设置得太小，参数更新的步长就会很小，导致收敛速度缓慢，需要更多的迭代次数才能收敛到最优解，或者在达到最优解之前就提前停止。方法，选定一个经验初始值，一步步沿着梯度的反方向进行计算，使方程解尽快达到收敛，并得出最优解。学习率的是一个经验，把它设置成一个比较小的正整数，0.1、0.01、0.001、0.0001，

【MindSpore易点通】模型测试和验证

skytttttt9394的博客

08-30

1009

在测试中调用MindSpore已有的评估函数，需要定义一个dict，包含要使用的评估方式，并在定义model时传入，后续调用model.eval()会返回一个dict，内容即为metrics的指标和结果。本文的样例代码是一个Resnet50在Cifar10上训练的分类网络，采用datasets.Cifar10Dataset接口读取二进制版本的CIFAR-10数据集，因此下载CIFAR-10 binary version (suitable for C programs)，并在代码中配置好数据路径。...

参与评论您还未登录，请先登录后发表或查看评论

【啃书吧：深度学习与MindSpore实践】第二章2.2 梯度下降算法

xi_xiyu的博客

07-27

305

初读：2020年11月30日至2020年12月3日啃书进度会在目录中标出来。本次目标是完成第二章2.2节梯度下降算法（P17-P19）。这一节内容非常聚焦，只讲了梯度下降的原理，介绍了三种实际的梯度下降方法——批量梯度下降算法、随机梯度下降算法和小批量梯度下降算法。 “梯度下降”真是如雷贯耳，好像任何一本机器学习的书、教程和大多数的微信公众号文章都要讲到它，所以这块内容应该非常重要，不得不再一次决定给予充分重视，尽量啃透。啃书笔记的详细内容请看附件pdf文件。pdf不能内嵌视频，迭代过

机器学习 | 算法模型 —— 梯度下降算法

也许有一天我们再相逢睁开眼睛看清楚我才是英雄！

12-23

993

1.概述【说明】 梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法（n纬问题求最优解，梯度下降是最常用的方法）；对于深度学习模型，基本都是采用梯度下降算法来进行优化训练。【场景假设】一人被困山上，需从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利...

为什么模型训练要采用梯度下降

hjkdh的博客

10-15

1360

梯度下降1、什么是梯度1、变化率最快的方向对于一元函数来说（这里X0处左右极限存在且相等）对于多元函数来说关于梯度下降，相信很多小伙伴都知道，模型训练中梯度方向是函数变化率最快的方向，这是用于优化模型的一个重要原因。但是梯度方向为什么是函数变化率最快的方向？相信很多人不知道，这里是我参照B站上深度之眼的一篇文章给出自己的理解，也希望自己在深度学习这条路上走的更远。 1、什么是梯度从微积分层面上来说梯度就是函数求导，对于一元函数来说梯度就是导数：那么多元函数便是偏导数了： 1、变化率最快的方向对于

模型训练--梯度设置

littlbabo的博客

05-07

1000

关于pytorch中参数使用的简单说明

【MindSpore易点通】API结构与使用方法

weixin_45666880的博客

09-09

1262

提供API所定义的功能的软件称作此API的实现。在MindSpore官网的文档页面中，按照顺序API模块排在第三个，前面的设计和语法支持是MindSpore的灵魂，在设计模块中包括了整体结构的设计和独有的关键特性，参考模块中是MindSpore的基准性能和对网络、算子和语法的支持情况，非常建议大家能够仔细浏览下。API文档是一个工具的使用说明书，所以想要学习一个工具就需要熟悉它的API，那么学习的难易程度会受到API文档的影响，本篇内容就和大家一起学习研究下MindSpore的API。

【MindSpore易点通】数据处理之中文文本数据预处理

weixin_45666880的博客

09-09

2237

早期的词类标注规则一般由人工构建。随着标注语料库规模的增大，可利用的资源也变得越来越多，这时候以人工提取规则的方法显然变得不现实，于是还提出了基于机器学习的规则自动提出方法。基于统计方法与规则方法相结合的词性标注方法，这类方法的主要特点在于对统计标注结果的筛选，只对那些被认为可疑的标注结果，才采用规则方法进行歧义消解，而不是对所有情况都既使用统计方法又使用规则方法。基于深度学习的词性标注方法，可以当作序列标注的任务来做，目前深度学习解决序列标注任务常用方法包括LSTM+CRF、BiLSTM+CRF等。

【MindSpore易点通】如何将PyTorch源码转成MindSpore低阶API,并在Ascend芯片上实现单机单卡训练

skytttttt9394的博客

08-30

461

本文将介绍如何将PyTorch源码转换成MindSpore低阶API代码,并在Ascend芯片上实现单机单卡训练。下图展示了MindSpore高阶API、低阶API和PyTorch的训练流程的区别。与MindSpore高阶API相同，低阶API训练也需要进行：配置运行信息、数据读取和预处理、网络定义、定义损失函数和优化器。具体步骤同高阶API。...

机器学习 | 模型优化过程概述：损失函数 & 梯度下降

ToBeCeratinToBeTall的博客

02-13

2056

什么损失函数 | 什么是梯度下降 | 怎么理解损失函数和梯度下降的关系 | 梯度下降方式

机器学习模型训练中，模型和梯度是什么？

ayamee的博客

12-02

3491

2.机器学习模型与梯度下降法

weixin_43176534的博客

06-20

194

文章目录模型描述1.模型参数说明2.假设函数与代价函数梯度下降法总结模型描述 1.模型参数说明参数说明 m 样本数量 x 输入变量 y 输出变量 h 假设函数 j 代价函数 Θ 代价函数参数 2.假设函数与代价函数假设函数就是假设一个函数，使其代表数据的分布。假设函数可以作为一种模型。代价函数常用于评估模型。为了达到优化目标，我们将代价函数作为工具使用。比如说线性回归模型的假设函数与代价函数。假设函数：对应的代价函数：代价函数的纵坐标

模型优化-梯度下降算法

温染的笔记

05-31

3368

梯度下降（Gradient Descent）算法是机器学习中使用非常广泛的优化算法。当前流行的机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。【思想】：要找到某函数的最小值，最好的方法是沿着该函数的梯度方向探寻，例如物理学上的加速度与速度的关系。当加速度为零时，此时速度可能是最大，也有可能是最小，这取决于函数曲线。【步骤】：随机取一个自变量的值 x0x_0x0；对应该自变量...

模型训练——梯度累计

最新发布

m0_66386487的博客

05-14

562

“梯度累计”是一种在显存受限时训练大模型或使用大批量大小的方法，特别适用于Transformer、MoE等大模型。其核心思想是通过多个小批次的前向和反向传播，累加梯度，最后再更新模型参数，从而等效于使用一个大批次进行训练。例如，如果GPU显存只能容纳batch_size=8，但希望达到batch_size=32的效果，可以设置accumulation_steps=4，每4个小批次后更新一次参数。代码实现中，需将loss除以accumulation_steps以保持等效性，并在累积步骤完成后调用optimiz

机器学习系列手记（七）：优化算法之随机梯度下降法的加速

yly_3026925713的博客

04-19

1029

优化算法随机梯度下降法的加速提到深度学习中的优化算法，人们通常会想到随机梯度下降。但随机梯度下降有时确是你算法中的一个坑。当你设计出一个深度神经网络谁，如果只知道用随机梯度下降来训练模型，那么当你得到一个比较差的训练结果时，你可能会放弃在这个模型上继续投入精力。然而，造成训练效果差的真正原因可能并不是模型的问题，而是随机梯...

模型的优化与训练 --- 梯度下降法及其衍生

qq_29053993的博客

06-01

811

梯度下降（Grandient Descent） 梯度下降的核心原理：函数的梯度方向表示了函数值增长速度最快的方向，那么和它相反的方向就可以看作是函数值减少速度最快的方向。对机器学习模型优化问题，当目标设定为求解目标函数最小值时，只要朝着梯度下降的方向前进，就能不断逼近最优值。最简单的梯度下降算法 - 固定学习率的方法：待优化的函数 f(x)f(x)f(x) 待优化函数的导数g(x)g(...

一文搞懂梯度下降

小白学视觉

03-30

5178

点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达什么是梯度下降梯度下降是机器学习中的常用算法，通过不断迭代计算函数的梯度，判断该点的某一方向和目标之间的距离，最终求得最小的损失函数和相关参数，为建立线性模型提供支持。梯度下降是一种广泛用于求解线性和非线性模型最优解的迭代算法，它的中心思想在于通过迭代次数的递增，调整使得损失函数最小化的权重。它的作用是用于优化一个目标函数，如果...

深度学习模型训练时损失在下降但是波动较大_计算机视觉那些事 | 深度学习基础篇（下）...

weixin_39568889的博客

12-06

2040

1写在前面在上一篇文章《计算机视觉那些事 | 深度学习基础篇(上)》中我们从基本的神经网络开始，介绍了从单层感知机到多层感知机(MLP)，从前向传播到反向传播，以及常用激活函数的相关内容。在这篇文章中，我们会对深度学习中常用的损失函数和梯度下降优化算法进行介绍。同时，我们将进一步从全连接神经网络过渡到卷积神经网络，介绍卷积的相关知识。2常见的损失函数在神经网络中，由于非线性激活函数的...

【Mindspore】【梯度计算功能】CustomWithLossCell计算梯度报错

weixin_45666880的博客

10-31

285

3、在之前在网络中我用了ops.Rsqrt()，在计算梯度时也报同样错误，内容是将StrideSliceGrad替换为Rsqrt，我把网络中的ops.Rsqrt()去掉了，就没有报Rsqrt的错，但是报了如下的错。2、报错内容似乎为StrideSliceGrad不支持梯度计算，不知道是否是这个原因，且不知道StrideSliceGrad对应于网络中的哪个函数。大致可以定位到GradOperation出的问题，似乎在计算loss过程中无法再次反向传播获取梯度，然后再对loss进行反向传播更新梯度。

mindspore中transformer模型

08-26

综上所述，在MindSpore中，可以使用相关的API和方法来构建和训练Transformer模型。123 #### 引用[.reference_title] - *1* [【MindSpore易点通】...