神经网络的数学基础与优化算法详解
1. 梯度的含义与作用
在神经网络中, grad(loss_value, W0) 有着重要的意义。对于单个系数的函数 f(x) ,其导数可以理解为 f 曲线的斜率。同样, grad(loss_value, W0) 可以被看作是描述 loss_value = f(W) 在 W0 附近最陡峭上升方向的张量,以及这个上升的斜率。每个偏导数描述了 f 在特定方向上的斜率。
基于此,就像对于函数 f(x) 可以通过将 x 向导数的相反方向稍微移动来减小 f(x) 的值一样,对于张量函数 f(W) ,可以通过将 W 向梯度的相反方向移动来减小 loss_value = f(W) 的值,例如 W1 = W0 - step * grad(f(W0), W0) (其中 step 是一个小的缩放因子)。这里的缩放因子 step 是必要的,因为 grad(loss_value, W0) 只有在接近 W0 时才能近似曲率,所以不能离 W0 太远。
2. 随机梯度下降
理论上,对于一个可微
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



