目的:梯度下降法利用损失函数对所有参数的梯度,寻找局部最小值点 首先有: 上标表示网络层,下标表示神经元: 例如:softmax中有: 1. 变量定义 问题1. 利用交叉熵和simod x 函数推导反向传播。