我室友打了两把csgo就搞懂了梯度,梯度下降,随机梯度下降(SGD),动量法,ADAM

本文介绍了梯度的概念及其在寻找函数最小值中的作用,详细讲解了梯度下降法的基本原理,以及随机梯度下降(SGD)的优缺点。此外,还探讨了动量法作为改进策略,并重点阐述了ADAM优化算法的优势,旨在帮助读者深入理解深度学习中的优化算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


梯度

一个多元函数的梯度方向是该函数值增大最陡的方向。具体化到1元函数中时,梯度方向首先是沿着曲线的切线的,然后取切线向上增长的方向为梯度方向,

比如说如果损失函数是一个二次函数那么最低点就是箭头指向部分
在这里插入图片描述
在这里插入图片描述

也就是f’(x)=0的地方,无论从哪开始都能找到函数最低点。而真实的损失函数更像一个崎岖的山坡

图片来源于 https://www.youtube.com/watch?v=GkB4vW16QHI

2元或者多元函数中,梯度向量为函数值f对每个变量的导数,该向量的方向就是梯度的方向,当然向量的大小也就是梯度的大小。
已知Z=F(X,Y),假设它的图像是这样:

分别固定住x跟y求偏导
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这时候我们需要对某一个点对x,y求偏导然后相加得到一个关于z的向量这个向量就是梯度。
在这里插入图片描述

梯度相反方向总是能带着你找到山下也就是损失函数最小点
在这里插入图片描述

梯度下降

一个函数可微分。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值,也就是山底。根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度 ,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向,所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。
梯度下降就是沿着梯度所指出的反方向一步一步找到损失函数最小值的地方

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值