本文推导了斯坦福课程cs231n(2017)assignment1 Q4的反向传播梯度
网络结构为
输入–全连接层–ReLU–全连接层–softmax
X−H=XW1+b1−R=max(0,H)−F=RW2+b2−softmax X − H = X W 1 + b 1 − R = max ( 0 , H ) − F = R W 2 + b 2 − softmax
其中, X X 为输入,每一行表示一个样本,
分别为第一和第二连接层的权重, b1,b2 b 1 , b 2 分别为第一和第二连接层的偏置。 F F 为第二连接层的输出(score)。
首先定义损失函数,对于每个训练样本,损失函数定义如下
总的损失函数为所有样本损失函数的均值加上正则项
L=1N∑iLi+λ(∑k∑lW21kl+∑k∑lW22kl). L = 1 N ∑ i L i + λ ( ∑ k ∑ l W 1 k l 2 + ∑ k ∑ l W 2 k l 2 ) .
记
pi,k=