cs231n学习笔记-lecture4(Backpropagation and Neural Networks)以及作业解答

这篇博客详细介绍了反向传播的计算方法,通过实例展示了如何利用链式法则进行前向传播和反向传播。同时,讲解了神经网络的基本结构,包括2层和多层神经网络,并提供了softmax作业的循环和向量化实现。最后,博主分享了梯度下降在神经网络训练中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Backpropagation

学习笔记

这部分主要是比较详细的介绍使用计算树进行反向传播的计算方法。

首先举了一个很简单的例子,例子中详细的介绍了前向传播和反向传播的计算方式,其实就是链式法则。每个节点的导数都是用后一个部位的导数乘以当前节点的导数。

然后总结了一个节点导数的求法,就是上一个节点的导数乘以当前节点的local gradient。

然后举了一个相对复杂的例子,也是一步一步进行了正向和反向传播。

这个例子的公式其实可以看成一个sigmoid函数和一个wx的向量相乘。

最后将链式求导扩展到矩阵的计算

矩阵求导的计算方式也是一样的,需要注意的一个细节是如果f=WX,计算dW需要对X进行转置,计算dX需要对W进行转置,并且因为dWW维度相同,dXX维度相同,所以我们在计算导数的时候关注一下矩阵维度,这样可以减少错误的概率。

推荐一个补充学习的文章,写的很好CS231n课程笔记翻译:反向传播笔记

几点思考:

  1. 神经网络中会用到很多WX的矩阵相乘,而dW的值与X的值相关,如果X的值统一扩大1000倍,那么dW会变大很多,这样我们就必须用更小的learning_rate,否则收敛效果不好。这就是为什么一般我们都希望X的值在一个相对小范围内。
  2. 以前我一直不知道tensorflow中是如何进行链式求导的,如果用\frac{f(x+\varepsilon )-f(x)}{\varepsilon }进行求导,这样需要进行两次前向计算才能求出导数,所以每次参数更新需要大量的计算。学习了这一课后我知道了框架也是进行的链式求导。比如tensorflow有graph的概念,就是计算图,会将每一个算子也就是op的连接过程记录下来,导数就可以根据计算图和每个op的local gradient公式进行链式求导。op就是一些我们常用的计算,比如加减乘除,relu,softmax,sigmoid,dropout等都是op,他们都有对应的导函数用来求local gradient。
    @ops.RegisterGradient("Relu")
    def _ReluGrad(op, grad):
      return gen_nn_ops.relu_grad(grad, op.outputs[0])

     

作业softmax

作业主要是用循环的方式和向量化的方式实现loss softmax正向和反向传播

1.循环的方式

前向传播很简单,就是套用softmax的公式

L = \sum_{i=1}^{n}-log(\frac{e^{s_{y_i}}}{\sum e^{s^{j}}}) + \frac{1}{2}reg*\left \| W \right \|_2

代码实现如下:

  num_train = X.shape[0]
  num_cls = W.shape[1]
  for i in range(num_train):
    scores = np.dot(X[i, :], W)
    softmax = np.exp(scores[y[i]]) / np.sum(np.exp(scores))
    loss_log = - np.log(softmax)
    loss += lo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值