WDSR——论文代码笔记

本文深入解析WN算法的运行机制,包括梯度计算、学习率调整及参数更新流程。通过理解g、V_scaler和W的关系,阐述如何利用Adam方法优化参数,适用于深度学习模型训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

论文链接

代码链接

 

WN的理解

1、计算梯度 grads
2、获得lr,如果需要衰减就对应衰减
3、迭代次数更新 t=iterations+1

4、计算本次迭代的lr,lr_t = lr*sqrt(1-pow(beta_2,t))/(1-pow(beta_1,t))

初始状态
params:初始值
grads:根据p和loss计算得到
ms:初始为0,不断更新
vs:初始为0,不断更新

根据parms、grads计算g和V
    因为 W = (g/||V||)*V,其中V_scaler = g/||V||,则W = V_scaler*V
    V_scaler = g/||V||,初始化为1,也是不断更新的
    W已知,V_scaler也已知,可得到 V = W/V_scaler
    根据V计算||V||
    再根据V_scaler和||V||,得到g=V_scaler*||V||
    计算g和V的梯度,根据论文里边的公式,用到grads

用Adam方法更新g和V
    用新的g和V更新W
    用V计算||V||
    V_scaler = g/||V||得到更新
    W = V_scaler*V

 

更新g、v、p

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值