DNN网络(全连接的网络)
在进行DNN反向传播算法前,我们需要选择一个损失函数,来度量训练样本计算出的输出和真实的训练样本输出之间的损失。输出计算公式:随机选择一系列W,b,用前向传播算法计算出来的。即通过一系列的计算:。计算得出最后的输出层L对应的
便是前向输出的结果。
损失函数的选择有很多,比如均方差、交叉熵。我们以交叉熵为例,介绍DNN的反向传播算法,计算公式如下:
,其中y为真实的标签(即网络最后一层的输出),
为网络预测的标签。
我们反向传播的过程就是求出合适的W、b,使上面的公式最小化。
我们开始用梯度下降法求解每一层的W、b的变化。
首先的输出层L,输出层的计算公式
对于输出层的参数,我们可以计算根据上面交叉熵公式计算损失函数:
,其中a^L将上面的公式带入
现在求解W,b的梯度: