人工智能中的梯度下降、反向传播与交叉熵成本函数
1. 梯度下降与反向传播的原理
在人工智能领域,梯度下降和反向传播是至关重要的概念。通过反向遍历网络,依次调整每一层的权重和偏差,沿着最陡的坡度在网络层中向下移动,从而实现成本函数的最小化。
现代人工智能的核心在于,人工神经网络并非被明确告知要学习训练数据集的哪些特征以及如何学习这些特征。它能够自主学习,得益于微积分知识,即人工智能机器掌握了最小化技术,并能应用微积分的链式法则进行反向传播。
这就是自下而上的人工智能的本质。人工智能机器并非从顶层被编程来执行特定任务或识别特定事物,而是通过其隐藏层、算法、梯度下降和反向传播,基于训练集中的图像和数据进行学习并得出结论。换句话说,人工智能机器能够自主学习和执行任务,并通过强化学习和无监督学习来提升自身的学习和识别能力。
1.1 相关注意事项
- 正态分布与偏差参数 :正态(高斯)分布考虑了随机噪声,而偏差参数则考虑了系统误差。
- 损失函数中取平方的原因 :在损失函数中取差值的平方,是因为目标是让差值趋近于零,且负损失(盈利?)与正损失同样糟糕,取平方能同时考虑两者。此外,平方还能使异常值更加明显,消除负值的可能性,并且是统计方差的一种度量。同时,平方表达式的导数也易于计算。而不使用差值的绝对值,是因为它会回归到中位数而非均值,且在原点处无定义,会导致不必要的计算问题。
- 成本函数中的 ½ 因子 :成本函数方程中的 ½ 因子是为了方便计算,因为平方变量的导数会产生一个 2 的因子
超级会员免费看
订阅专栏 解锁全文
978

被折叠的 条评论
为什么被折叠?



