我们前面已经谈到,在构建一个网络时,主要的思路可以分为两部分:
Loop:{
前向传播——计算结果,得到loss_function
反向传播——逐层计算梯度,调整参数数值
}until convergence
今天我们来添加构建网络的最后一块砖石:前向和反向传播算法实现
之前我们讲过了梯度下降,是一种优化方法,用它来优化损失函数。至于损失函数的选择,各种教程都有说明.....不管是cross_entropy, SVM, softmax......选一个适合的就好
OK,前传和后传都是基于一种叫做computation graph的计算模型,大概就是以下这个样子: