18、神经网络:从基础到高级应用

神经网络:从基础到高级应用

1. 成本函数与梯度消失问题

在神经网络中,成本函数的选择对训练效果有着重要影响。例如,对称熵的增量与激活函数无关,在所有提及的成本函数中,它产生的梯度消失效应最小。不过,还有一个影响学习效率的重要因素,即权重初始化,这将在后续详细探讨。

2. 批量训练

想象你身处一个陌生的城市,要寻找科学博物馆。你有两种获取方向的方式:
- 询问单人 :每次只问一个人,得到的方向可能不太可靠,但你可以沿着这个方向前进一段距离,然后再询问新的方向,逐步靠近博物馆。
- 询问多人 :询问一组(如100人)游客,将他们建议的方向取平均值。这样你会更有信心,能朝着平均方向走更远的距离,有望更快到达博物馆。

在使用梯度下降法时,情况类似。使用全量输入数据计算成本函数的梯度能得到最佳结果,但计算时间长。因此,通常会随机抽取一个小批量数据来估计梯度,以平衡准确性和计算时间。

假设一个小批量包含 $N$ 个输入 ${X^{(0,1)}, \ldots, X^{(0,N)}}$,平均梯度方向为:
$\hat{\nabla}C = \frac{1}{N} \sum_{k=1}^{N} \nabla C(X^{(0,k)})$

根据中心极限定理,平均值的方差往往比单个结果的方差小。如果输入是独立随机变量,平均梯度 $\hat{\nabla}C$ 的均值与 $\nabla C(X^{(0,k)})$ 相同,但方差小 $N$ 倍。例如,当批量大小 $N = 100$ 时,平均梯度方向的误差比原始方向更准确一位。由于误差小,我

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值