DL4J源码阅读（四）：梯度计算

最新推荐文章于 2025-03-11 22:45:18 发布

原创

最新推荐文章于 2025-03-11 22:45:18 发布 · 777 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#DL4J

本文深入探讨了DL4J库中梯度计算的过程，从computeGradientAndScore方法开始，逐步解析backprop()、calcBackpropGradients()以及initGradientsView()等关键步骤。在梯度计算中，涉及权重参数、偏移参数的初始化，以及通过backpropGradient()方法在各层之间的误差反传。以输出层的LossNegativeLogLikelihood损失函数和ActivationSoftmax激活函数为例，详细解释了梯度计算的细节，包括Hadamard product在矩阵乘法中的应用。最后，文章对隐藏层的梯度计算进行了阐述，并对代码中可能优化的地方提出了疑问。

computeGradientAndScore方法调用backprop()做梯度计算和误差反传。

backprop()调用calcBackpropGradients()方法。calcBackpropGradients()方法再调用initGradientsView()方法。在initGradientsView()方法里，先初始化一个数组flattenedGradients = Nd4j.zeros(new int[] {1, paramLength}, 'f')。这个数组长度是网络所有参数个数，包括每层的权重参数和偏移参数。本例中是102。然后调用layers[i].setBackpropGradientsViewArray(thisLayerGradView)设置每层的权重参数。本例中调用的BaseLayer的setBackpropGradientsViewArray()方法。这个方法中对BaseLayer的两个成员变量gradientsFlattened、gradientViews赋值。其中gradientViews是Map<String, INDArray>类型，赋值时，key是W和b，分别代表权重和偏移。