神经网络和深度学习
神经网络基础
计算图
-
可以说,一个神经网络的计算,都是按照前向或反向传播过程组织的,计算图解释了为什么我们用这种方式组织这些计算过程。
-
首先我们计算出一个新的网络的输出(前向过程),紧接着进行一个反向传输操作,后者我们用来计算出对应的梯度或导数。

- 我们尝试计算函数 JJJ,JJJ 是由三个变量 a,b,ca, b, ca,b,c 组成的函数,这个函数是 3(a+bc)3(a+bc)3(a+bc)。
- 计算这个函数实际上有三个不同的步骤,首先是计算 bbb 乘以 ccc,我们把它储存在变量 uuu 中,因此 u=bcu=bcu=bc,然后计算 v=a+uv=a+uv=a+u,最后输出 j=3vj=3vj=3v,这就是要计算的函数 JJJ。
- 当有不同的或者一些特殊的输出变量时,例如本例中的 JJJ 和逻辑回归中你想优化的代价函数 JJJ,因此计算图用来处理这些计算会很方便。
- 通过一个从左向右的过程,你可以计算出 JJJ 的值。
- 为了计算导数,从右到左(红色箭头,和蓝色箭头的过程相反)的过程是最自然的方式。
计算图的导数计算
-
这是一个流程图:

- 下面用到的公式:dJdu=dJdvdvdu\frac{dJ}{du}=\frac{dJ}{dv}\frac{dv}{du}dudJ=dvdJdudv,dJdb=dJdududb\frac{dJ}{db}=\frac{dJ}{du}\frac{du}{db}dbdJ=dudJdbdu,dJda=dJdududa\frac{dJ}{da}=\frac{dJ}{du}\frac{du}{da}dadJ=dudJdadu;
- 定义上 J=3vJ= 3vJ=3v,现在 v=11v=11v=11,所以如果你让 vvv 增加一点点,比如到 11.001,那么 J=3v=33.003J= 3v=33.003J=3v=33.003,所以我这里 vvv 增加了0.001,最终结果是 JJJ 上升到原来的3 倍,所以 dJdv=3\frac{dJ}{dv}=3dvdJ=3,因为对于任何 vvv 的增量 JJJ 都会有3倍增量;
- 在反向传播算法中的术语,如果你想计算最后输出变量的导数,使用你最关心的变量对 vvv 的导数,那么我们就做完了一步反向传播,在这个流程图中是一个反向步;

- 首先 aaa 增加了,vvv 也会增加,vvv 增加多少取决于dvda\frac{dv}{da}dadv,然后 vvv 的变化导致 JJJ 也在增加,如果 aaa 影响到 vvv, vvv 影响到 JJJ,那么当你让 aaa 变大时,JJJ 的变化量就是当你改变 aaa 时,vvv 的变化量乘以改变 vvv 时 JJJ 的变化量,在微积分里这叫链式法则。
- 到目前为止,我们一直在往回传播,并计算 dv=3dv=3dv=3,再次,dvdvdv 是代码里的变量名,其真正的定义是 dJdv\frac{dJ}{dv}dvdJ,da=3da=3da=3 且 dadada 是代码里的变量名,其实代表 dJda\frac{dJ}{da}dadJ的值。
-
一个计算流程图就是正向或者说从左到右的计算来计算成本函数 JJJ,即需要优化的函数,然后反向从右到左计算导数。


本文深入探讨了神经网络的计算过程,通过计算图解释了前向传播和反向传播的基本原理,展示了如何通过链式法则计算梯度,为深度学习算法的理解提供了清晰的视角。
220

被折叠的 条评论
为什么被折叠?



