神经网络:从基础到高级应用
1. 成本函数与梯度消失问题
在神经网络中,成本函数的选择对训练效果有着重要影响。例如,对称熵的增量与激活函数无关,在所有提及的成本函数中,它产生的梯度消失效应最小。不过,还有一个影响学习效率的重要因素,即权重初始化,这将在后续详细探讨。
2. 批量训练
想象你身处一个陌生的城市,要寻找科学博物馆。你有两种获取方向的方式:
- 询问单人 :每次只问一个人,得到的方向可能不太可靠,但你可以沿着这个方向前进一段距离,然后再询问新的方向,逐步靠近博物馆。
- 询问多人 :询问一组(如100人)游客,将他们建议的方向取平均值。这样你会更有信心,能朝着平均方向走更远的距离,有望更快到达博物馆。
在使用梯度下降法时,情况类似。使用全量输入数据计算成本函数的梯度能得到最佳结果,但计算时间长。因此,通常会随机抽取一个小批量数据来估计梯度,以平衡准确性和计算时间。
假设一个小批量包含 $N$ 个输入 ${X^{(0,1)}, \ldots, X^{(0,N)}}$,平均梯度方向为:
$\hat{\nabla}C = \frac{1}{N} \sum_{k=1}^{N} \nabla C(X^{(0,k)})$
根据中心极限定理,平均值的方差往往比单个结果的方差小。如果输入是独立随机变量,平均梯度 $\hat{\nabla}C$ 的均值与 $\nabla C(X^{(0,k)})$ 相同,但方差小 $N$ 倍。例如,当批量大小 $N = 100$ 时,平均梯度方向的误差比原始方向更准确一位。由于误差小,我
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



