神经网络误差回传或梯度下降法迭代更新原理推导

本文深入解析了梯度下降法中权重更新的原理,从泰勒展开的角度探讨误差回传的过程。通过一阶泰勒展开分析,明确了在损失函数附件,权重w需沿梯度的反方向移动以达到最小化损失。讨论了向量内积与最小化条件的关系,阐述了权重更新的方向和幅度关键依赖于梯度的负方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

鉴于网上没有特别清晰地解释为何梯度下降法中更新式子为

w - w_j = -\alpha \Delta J(wj)

特此将自己理解做个记录。

1. 先从Taylor展开的本质开始理解:

  • 泰勒展开:泰勒公式是将一个在x=x0处,且具有n阶导数的函数P(x)利用关于(x-x0)的n次多项式来逼近函数f(x)【我们想要近似的函数】的方法。泰勒展开式在x=x0点展开形式为:【即f(x)只是用来近似t(x)在x0点附近的函数值】

    • Taylor展开的真正意义:对于x0点的泰勒展开,其第一项就是f(x0), 也就是说对于x0这点的值来说,泰勒展开没有任何意义,因为f(x)|_{x=x_0} = f(x0). 而Taylor展开的真正意义在于,当x在x0附近时候,比如x1处(d = |x1 - x0|比较小}),f(x1)相对于f(x0)是有变化的,这个变化可以用后面的导数项来补回来。而后面项的多少,决定了x1在多远处能达到精度。也就是,阶数越高,d可以活动范围越大。
    • 因此,可以推广到插值算法中,对于选定的某一点,如果知道这
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值