反向传播算法理解与记录_反向传播需要记录那些参数-优快云博客

本文介绍了反向传播(Backpropagation)算法的基本概念及其在神经网络中的应用。反向传播是一种基于链式求导法则的有效计算输出关于网络各层参数梯度的方法。文章通过Coursera上Andrew Ng的斯坦福机器学习课程中的讲解，详细阐述了如何通过反向传播来最小化代价函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

反向传播(Backpropagation，BP)是用于最小化多层神经网络或深度神经网络中代价函数的神经网络术语。最小化代价函数通常使用梯度下降(gradient descend)，而反向传播算法则是神经网络中有效计算输出关于网络各层参数梯度的一种基于链式求导法则的算法。
下面是依据coursera上Andrew Wu的斯坦福机器学习课程中关于BP算法的介绍和相关笔记做的记录。

1 目标

要利用梯度下降法最小化代价函数 $J(\theta)$ ,则需要计算 $J(\theta)$ 关于各层权重和偏置参数 $\Theta_{i,j}^l$ 的梯度，即 $\frac {\partial}{\partial\Theta_{i,j}^l} J(\theta)$
这里写图片描述

2 理解思路

关于BP算法大致思路的理解可以用下图进行直观的认识
这里写图片描述
图片来源:LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
上图中子图c是一个含有两个隐层的神经网络的前向传播过程，每一层的神经元输出通过线性加权组合作为下一层各神经元的输入，然后经过激活函数f(z)得到该层神经元的输出，依次递推。
而子图d显示的则是该网络的反向传播过程，图中E表示的就是代价函数。从后往前（图中从上到下）利用链式求导法则（即复合函数求导法则）依次计算E关于各层神经元输出y（前向）和输入z（前向）的梯度直至输入层 $\frac{\partial E}{\partial {w_{ij}}}=\sum_{i\in Input} x_i\frac{\partial E}{\partial {z_j}}$