15、随机梯度下降：从基础到实践

最新推荐文章于 2025-10-24 17:47:19 发布

e1f2g

最新推荐文章于 2025-10-24 17:47:19 发布

阅读量33

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：随机梯度下降 SGD 机器学习

本文链接：https://blog.youkuaiyun.com/e1f2g/article/details/151037899

深度学习实战指南专栏收录该内容

49 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

随机梯度下降：从基础到实践

在机器学习的图像分类任务中，我们最初对 3 和 7 的分类取得了不错的开端，准确率均超过 90%。例如，通过以下代码计算 3 和 7 的准确率：

accuracy_3s = is_3(valid_3_tens).float().mean()
accuracy_7s = (1 - is_3(valid_7_tens).float()).mean()
print(accuracy_3s, accuracy_7s, (accuracy_3s + accuracy_7s) / 2)
# 输出示例：(tensor(0.9168), tensor(0.9854), tensor(0.9511))

不过，目前仅对 10 个可能数字中的 2 个进行分类，且 3 和 7 外观差异较大，因此我们需要寻找更好的方法。

随机梯度下降的引入

为了提升模型性能，我们引入随机梯度下降（SGD）。传统的像素相似度方法缺乏权重分配和基于权重有效性测试的改进机制，而 SGD 则可以自动调整自身以提高性能。

我们不再寻找图像与“理想图像”之间的相似度，而是为每个像素分配一组权重。例如，对于数字 8，右下角的像素更可能被激活，因此这些像素应具有较高的权重；而对于数字 7，这些像素不太可能被激活，权重应较低。可以用以下函数表示数字 8 的概率：

def pr_eight(x, w):
    return (x * w).sum()

这里， x

订阅专栏解锁全文

会员秒杀 ¥9.9 重磅福利

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

e1f2g

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

梯度下降优化：从理论到实践

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

01-23

1100

1. 背景介绍梯度下降（Gradient Descent）是一种广泛应用于机器学习和深度学习领域的优化算法。它的目标是找到一组参数，使得目标函数取得最小值。梯度下降的原理基于数学微分学中的梯度概念，通过沿着目标函数的梯度方向进行搜索，不断逼近最优解。梯度下降优化在训练神经网络模型时起着至关重要的作用。它是反向传播算法的核心，用于调整

随机梯度下降 (Stochastic Gradient Descent)

AI天才研究院

06-18

1443

1. 背景介绍在机器学习和深度学习中，优化算法是非常重要的一部分，它们用于找到最优的模型参数，以最小化损失函数。随机梯度下降（Stochastic Gradient Descent，SGD）是一种常用的优化算法，它通过随机选择数据样本的梯度来更新模型参数，因此得名。在这篇文章中，我们将深入探讨随机梯度下降的原理、实现和应用。

参与评论您还未登录，请先登录后发表或查看评论

梯度下降：从原理到实践，解析机器学习核心优化算法

qq_74732076的博客

08-06

1183

本文围绕梯度下降展开，先指出正规方程的局限性：当损失函数非凸时，无法确定唯一解；且特征较多时，逆矩阵运算时间复杂度为𝑂(𝑛³)，计算量极大，故梯度下降更常用。梯度下降类似在山地找谷底，沿最陡峭下坡方向逐步移动，其梯度是损失函数对模型参数的偏导数，指引参数调整以减小损失，是通用优化算法。步骤为：随机初始化参数，求梯度，依梯度正负调整参数，判断收敛（损失变化微小或达迭代次数）。学习率影响迭代：过大会震荡，过小则迭代次数多，常设为0.1、0.01等，也可随迭代减小。

深入理解梯度下降：从批量到随机再到小批量

2403_87771104的博客

10-24

877

本文系统介绍了梯度下降的三种主要变体：批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD）。BGD使用整个数据集计算梯度，收敛稳定但计算量大；SGD每次更新基于单个样本，计算快但收敛不稳定；MBGD折中二者，采用小批量样本，兼具效率和稳定性。通过PyTorch实现和3D可视化，直观展示了三种方法在优化路径上的差异：BGD路径平滑但收敛慢，SGD路径震荡但可能跳出局部最优，MBGD则平衡了收敛速度和稳定性。实验结果表明MBGD是深度学习中最实用的优化方法。

深入理解梯度下降：优化算法的心脏

码上飞扬的博客

06-10

1225

梯度下降算法是一种寻找函数最小值的优化算法。在机器学习中，我们通常要最小化一个代价函数（或损失函数），它衡量的是模型预测值与真实值之间的差异。梯度下降算法通过迭代地调整参数，逐步减小代价函数的值，直到找到一个足够小的局部最小值或全局最小值。

随机梯度下降：核心概念与实践

AI天才研究院

12-22

780

1.背景介绍 随机梯度下降(Stochastic Gradient Descent, SGD)是一种广泛应用于机器学习和深度学习领域的优化算法。它是一种在线优化方法，通过不断地更新模型参数来最小化损失函数。随机梯度下降算法在许多机器学习任务中表现出色，如线性回归、逻辑回归、支持向量机等。在深度学习领域，它被广泛应用于神经网络的训练，如卷积神经网络(CNN)、递归神经网络(RNN)等。本文将从...

万字长文，揭开梯度下降的神秘面纱：从理论基础到批量、随机、小批量梯度下降实战演练

致力于探索人工智能和编码的奇妙世界，为读者提供有关AI技术、编程和科技创新的精彩内容。

04-28

1570

本文系统阐述梯度下降算法在机器学习中的原理与应用。介绍其求解无约束最优化问题的核心思想，推导公式并分析学习率、全局最优解等关键要素。对比批量、随机及小批量梯度下降方法的差异与优劣，探讨优化策略。通过线性回归实例，展示三种方法的代码实现过程，凸显其在模型训练中的重要价值与应用潜力。

深度学习中的梯度下降算法：详解与实践

xyaixy的博客

11-27

2939

梯度下降算法是深度学习中的核心优化方法，通过沿着损失函数的负梯度方向更新模型参数，以逐步逼近最优解。本文详细探讨了梯度下降的基本原理、三种主要变体（批量梯度下降、随机梯度下降、小批量梯度下降）、学习率的影响及调整方法，以及常见优化技巧（如梯度裁剪和动量方法）。此外，结合实践示例说明了如何在深度学习中高效应用梯度下降算法，为开发者提供理论与实践的全面指导。梯度下降算法的持续优化将为深度学习技术的发展奠定更坚实的基础。

梯度下降算法全面解析：从基础原理到高级变种

嗨，欢迎来到我的优快云博客小天地！一名深耕多年的技术发烧友。在这里，我将把日常工作中积累的宝贵经验，从复杂架构设计的精妙之处，到代码优化的实战技巧，毫无保留地分享给大家。

07-28

1634

梯度下降算法全面解析：从基础原理到高级变种

梯度下降的几何原理：从山谷下坡到高维空间优化

zuiyuelong的博客

07-15

1471

在多元微积分中，梯度被定义为函数在各坐标轴上偏导数构成的向量。对于函数，其梯度表示为：这一向量的几何意义极为深刻：它指向函数值增长最快的方向，其模长表示该方向上的变化率最大值。例如在二维地形图中，梯度方向即为最陡峭的上坡方向，而负梯度方向则是下降最快的路径。这种性质使得梯度成为优化问题中寻找极值的天然指南针。高维空间中的梯度方向。

深入理解梯度下降法：从原理到实践

10-07

梯度下降有三种主要的变种：批量梯度下降、随机梯度下降和小批量梯度下降。批量梯度下降使用所有训练样本计算梯度，适合小型数据集，但计算成本高；随机梯度下降仅用一个样本计算梯度，速度快但误差波动大；小批量...

《Pytorch深度学习实践》P3梯度下降法笔记+代码+图像：梯度下降、随机梯度下降、小批量随机梯度下降

大臣不想在月亮上上热搜

10-11

700

《Pytorch深度学习实践》P3 梯度下降、随机梯度下降、小批量随机梯度下降，重点讲解梯度下降原理，三者优缺点及代码。

sharding-jdbc示例代码

12-19

sharding-jdbc示例代码

ENVI+Deep+Learning+V1.0深度学习操作教程

12-19

内容概要：本文介绍了ENVI Deep Learning V1.0的操作教程，重点讲解了如何利用ENVI软件进行深度学习模型的训练与应用，以实现遥感图像中特定目标（如集装箱）的自动提取。教程涵盖了从数据准备、标签图像创建、模型初始化与训练，到执行分类及结果优化的完整流程，并介绍了精度评价与通过ENVI Modeler实现一键化建模的方法。系统基于TensorFlow框架，采用ENVINet5（U-Net变体）架构，支持通过点、线、面ROI或分类图生成标签数据，适用于多/高光谱影像的单一类别特征提取。; 适合人群：具备遥感图像处理基础，熟悉ENVI软件操作，从事地理信息、测绘、环境监测等相关领域的技术人员或研究人员，尤其是希望将深度学习技术应用于遥感目标识别的初学者与实践者。; 使用场景及目标：①在遥感影像中自动识别和提取特定地物目标（如车辆、建筑、道路、集装箱等）；②掌握ENVI环境下深度学习模型的训练流程与关键参数设置（如Patch Size、Epochs、Class Weight等）；③通过模型调优与结果反馈提升分类精度，实现高效自动化信息提取。; 阅读建议：建议结合实际遥感项目边学边练，重点关注标签数据制作、模型参数配置与结果后处理环节，充分利用ENVI Modeler进行自动化建模与参数优化，同时注意软硬件环境（特别是NVIDIA GPU）的配置要求以保障训练效率。

QPdfiumDemo

12-19

QPdfiumDemo

【网络安全竞赛】基于DVWA的代码级攻防技术：SQL注入至RCE利用链的实战设计与自动化防御方案研究

最新发布

12-19

内容概要：本文通过改造DVWA漏洞靶场，构建了一条从SQL注入到文件上传再到远程命令执行（RCE）的完整攻击链，重点展示代码级攻防技术。文中详细解析了二次注入、图片马精制、竞争上传和LD_PRELOAD沙箱逃逸等高阶技巧，并提供了完整的Python利用脚本与官方修复补丁，强调在真实竞赛场景下的实战应用与防御策略。同时展望了自动化Patch评估、微服务漏洞链和合规审计等未来发展方向。; 适合人群：具备一定Web安全基础，参加CTF竞赛或从事渗透测试工作的安全从业者，以及蓝队防守人员和安全培训讲师。; 使用场景及目标：①在高校CTF比赛中作为高难度Web题型，检验选手综合攻防能力；②用于企业招聘中考察候选人实战编码与应急响应能力；③辅助安全培训中进行攻击复现与防御规则编写。; 阅读建议：学习者应结合DVWA环境动手实践每个攻击环节，深入理解Payload构造原理与系统底层机制，同时对比官方Patch掌握安全编码规范，提升攻防双向能力。

量子信息科学入门

12-19

本书全面介绍量子信息科学的核心概念，涵盖量子计算、量子通信与退相干机制。从基本的量子比特出发，深入探讨纠缠、量子门、测量及错误校正等关键技术。结合理论与实验视角，解析量子隐形传态、量子密码学与量子算法的实现原理。书中融合多位领域专家的讲义，兼顾初学者与研究前沿，是进入量子信息技术领域的理想指南。

企业传播全渠道新闻发稿策略与GEO优化效果评估：基于AI驱动的媒体投放及多维度ROI分析系统设计

12-19

内容概要：本文系统阐述了企业新闻发稿在生成式引擎优化（GEO）时代下的全渠道策略与效果评估体系，涵盖当前企业传播面临的预算、资源、内容与效果评估四大挑战，并深入分析2025年新闻发稿行业五大趋势，包括AI驱动的智能化转型、精准化传播、首发内容价值提升、内容资产化及数据可视化。文章重点解析央媒、地方官媒、综合门户和自媒体四类媒体资源的特性、传播优势与发稿策略，提出基于内容适配性、时间节奏、话题设计的策略制定方法，并构建涵盖品牌价值、销售转化与GEO优化的多维评估框架。此外，结合“传声港”工具实操指南，提供AI智能投放、效果监测、自媒体管理与舆情应对的全流程解决方案，并针对科技、消费、B2B、区域品牌四大行业推出定制化发稿方案。; 适合人群：企业市场/公关负责人、品牌传播管理者、数字营销从业者及中小企业决策者，具备一定媒体传播经验并希望提升发稿效率与ROI的专业人士。; 使用场景及目标：①制定科学的新闻发稿策略，实现从“流量思维”向“价值思维”转型；②构建央媒定调、门户扩散、自媒体互动的立体化传播矩阵；③利用AI工具实现精准投放与GEO优化，提升品牌在AI搜索中的权威性与可见性；④通过数据驱动评估体系量化品牌影响力与销售转化效果。; 阅读建议：建议结合文中提供的实操清单、案例分析与工具指南进行系统学习，重点关注媒体适配性策略与GEO评估指标，在实际发稿中分阶段试点“AI+全渠道”组合策略，并定期复盘优化，以实现品牌传播的长期复利效应。

手机端AIDE编译器安卓版推箱子游戏软件代码.txt

12-19

手机端AIDE编译器安卓版推箱子游戏软件代码.txt

批量梯度下降与随机梯度下降：比较与理解

此外，还有一种介于两者之间的策略——小批量梯度下降，它每次迭代使用一部分（而非全部或单个）训练样本，结合了批量梯度下降的稳定性和随机梯度下降的速度，通常在实践中取得了较好的效果。在实际应用中，开发者会...