Wi=Wi−α∗dWi→min(L)
L=(Y−Ŷ )2
where
Ŷ
is the ground truth
Y=φ(W3Y2)=φ(z)
z(W,Y)=WY
Y2=f(W2Y1)
f(x)=RELU(x)=max(x,0)
dLdW3
=dLdY∗dYdW3
=dLdY∗dYdz∗dzdW3
=2(Y−Ŷ )∗φ(z)(1−φ(z))∗Y2
=dLdY∗dYdz∗dzdW3=2(Y−Ŷ )∗φ(W3Y2)(1−φ(W3Y2))∗Y2
dLdW2
=dLdY2∗dY2dW2
=dLdYdYdφdφdY2∗Y2W2
if W2Y1≥0,f(W2Y1)=W2Y1
=
本文详细解析了深度学习中反向传播算法的工作原理及数学推导过程,重点介绍了权重更新的方法及其背后的梯度计算。通过理解损失函数、激活函数等关键概念,帮助读者深入掌握神经网络的学习机制。

1647

被折叠的 条评论
为什么被折叠?



