类SoftmaxWithLossLayer包含类SoftmaxLayer的实例。其中SoftmaxLayer层在正向传导函数中将64*10的bottom_data,通过计算得到64*10的top_data。这可以理解为输入数据为64个样本,每个样本特征数量为10,计算这64个样本分别在10个类别上的概率。公式如下,其中n=10,
f(zk)=ezk∑nezi=ezk−m∑nezi−m,m=max(zi)
SoftmaxWithLossLayer层利用SoftmaxLayer层的输出计算损失,公式如下,其中N为一个batch的大小(MNIST训练时batch_size为64,测试时batch_size为100)。 根据Cross-Entropy的定义有,
loss=−∑iny^

本文详细解析了Softmax层及其与SoftmaxWithLoss层的工作原理,包括正向传播和反向传播的过程,以及交叉熵损失的计算方法。特别强调了在训练过程中如何判断网络是否收敛,并给出了具体示例。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



