随机梯度下降中,momentum的理解

本文探讨了在随机梯度下降(SGD)算法中引入Momentum技术的原因及其工作原理。Momentum通过积累过去的梯度信息来帮助SGD更快地逃离局部最小值和平坦区域,从而加速收敛过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一般而言,在随机梯度下降中,有梯度的方向即可;

在确定方向的情况下,给一个合适的步长,也就是在这个方向上,下降步长这么多;

这两个参数,感觉就够了

但是,怎们出现了一个 momentum 冲量呢?

奇怪也哉


其实也好理解,

随机梯度下降,有时候解决问题太慢了

(1)可能进入了一个平坦地区,下降好多步,也走不到头

(2)进入了一个泥石流区域,向左1步,向右1步,走半天也走不出去

冲量就是解决类似的问题的


每一步的梯度下降的量和方向,也参考一下上面的步骤,要是方向一致,就大步走;

要是忽走忽右,就中和一下,往前走

ν=γν+αθJ(θ,x(i),y(i))  
θ=θν   
ν  代表速率向量,由于梯度比常规方法更大, α  需要更小。  γ(0,1] 该参数确定上一次梯度对当前更新的贡献率,通常,在初始学习稳定之前,取0.5,之后取0.9或更大。


在物理上,冲量是力的时间累积效应的量度,是矢量。如果物体所受的力是大小和方向都不变的恒力F,冲量I就是F和作用时间t的乘积。如果F的大小、方向是变动的,冲量I应用矢量积分运算。冲量通常用来求短暂过程(如撞击)中物体间的作用力,即由物体的动量增量和作用的时间而估算其作用力。此力又称冲力。冲量的单位在国际单位制中是千克·米每秒(kg·m /s)。通常用I(大写的i)表示。

定义

由F=ma,a=△v/△t,设△v=v1-v2,△t=t1-t2可得 [1]  
mv1-mv2=Ft 即可说:物体所受 合外力的冲量就是该物体的动量变化量.
冲量是描述力对物体作用的时间累积效应的 物理量。力的冲量是一个 过程量。在谈及冲量时,必须明确是哪个力在哪段时间上的冲量。

例题分析

例:质量为3千克的甲、乙两物体,甲物体以初速10米/秒自30米高处斜向上抛出,乙物体自足够大的光滑曲面无初速下滑,试比较甲、乙两物体2秒内所受重力冲量的大小。
分析和解:重力是恒力,故重力在2秒内的冲量I=mgt=3×10×2牛.秒=60牛.秒,方向竖直向下。
重力的冲量只与重力的大小和作用时间有关,与物体做什么运动,是否受其它力无关。因此甲、乙两物体2秒内所受重力冲量相等。
又如 质量为3千克的物体,以2米/秒的速度沿水平光滑地面向东运动。物体受到一个向东的4牛的力的作用6秒,接着这个力变为向西5牛,作用4秒。求这个力在10秒内的冲量。
解 取向东方向为正方向,力F在前6秒内的冲量为F1.t1=4×6牛.秒=24牛.秒。力F在后4秒内的冲量为F2t2=(-5)×4牛.秒=-20牛.秒。所以,力F在10秒内的冲量为F1t1+F2t2=4牛.秒。正号说明冲量方向向东。
冲量是矢量,在计算时一定要注意建立坐标。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值