深度学习背后的数学原理
1. 一些数学工具
在介绍反向传播之前,我们需要回顾一些微积分中的数学工具。这些内容大多在高中数学中有所涉及,下面我们简单回顾几个重要的方面。
1.1 向量
向量和角度余弦是几何与代数中的两个基本概念,在机器学习中非常有用。向量本质上是一组数字,我们可以将其解释为空间中的一个方向。数学家通常将向量写成列向量 $x$ 或行向量 $x^T$。对于两个列向量 $u$ 和 $v$,它们的点积可以通过计算 $u^Tv = \sum_{i} u_iv_i$ 得到,并且可以证明 $u^Tv = |u||v|\cos\theta$,其中 $\theta$ 是两个向量之间的夹角。
这里有两个简单的问题:当两个向量非常接近时,结果如何?当两个向量相同时,结果又如何?
1.2 导数与梯度
导数是一种强大的数学工具,我们将使用导数和梯度来优化网络。函数 $y = f(x)$ 关于变量 $x$ 的导数,衡量的是函数值 $y$ 随变量 $x$ 的变化率。
如果 $x$ 和 $y$ 是实数,并且将 $f$ 的图像绘制在 $x$ 轴上,那么导数就是该图像在每个点的“斜率”。对于线性函数 $y = f(x) = ax + b$,其斜率为 $a = \frac{\Delta y}{\Delta x}$。这可以通过以下推导得出:
[
\begin{align }
y + \Delta y &= f(x + \Delta x) = a(x + \Delta x) + b = ax + a\Delta x + b\
\Delta y &= a\D
深度学习数学原理详解
超级会员免费看
订阅专栏 解锁全文
1014

被折叠的 条评论
为什么被折叠?



