18、神经网络：从基础到高级应用

devops8pract

于 2025-07-22 10:07:10 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的数学基石文章标签：神经网络成本函数梯度消失

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/devops8pract/article/details/151037148

深度学习的数学基石专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

神经网络：从基础到高级应用

1. 成本函数与梯度消失问题

在神经网络中，成本函数的选择对训练效果有着重要影响。例如，对称熵的增量与激活函数无关，在所有提及的成本函数中，它产生的梯度消失效应最小。不过，还有一个影响学习效率的重要因素，即权重初始化，这将在后续详细探讨。

2. 批量训练

想象你身处一个陌生的城市，要寻找科学博物馆。你有两种获取方向的方式：
- 询问单人 ：每次只问一个人，得到的方向可能不太可靠，但你可以沿着这个方向前进一段距离，然后再询问新的方向，逐步靠近博物馆。
- 询问多人 ：询问一组（如100人）游客，将他们建议的方向取平均值。这样你会更有信心，能朝着平均方向走更远的距离，有望更快到达博物馆。

在使用梯度下降法时，情况类似。使用全量输入数据计算成本函数的梯度能得到最佳结果，但计算时间长。因此，通常会随机抽取一个小批量数据来估计梯度，以平衡准确性和计算时间。

假设一个小批量包含 $N$ 个输入 ${X^{(0,1)}, \ldots, X^{(0,N)}}$，平均梯度方向为：
$\hat{\nabla}C = \frac{1}{N} \sum_{k=1}^{N} \nabla C(X^{(0,k)})$

根据中心极限定理，平均值的方差往往比单个结果的方差小。如果输入是独立随机变量，平均梯度 $\hat{\nabla}C$ 的均值与 $\nabla C(X^{(0,k)})$ 相同，但方差小 $N$ 倍。例如，当批量大小 $N = 100$ 时，平均梯度方向的误差比原始方向更准确一位。由于误差小，我

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。