第1章:数学与机器学习基础回顾 (Foundation Reloaded)
欢迎来到深度学习世界的入口。在深入探索那些令人兴奋的复杂模型(如CNN, Transformer)之前,我们必须确保脚下的基石稳固。本章将快速但深入地回顾那些支撑起整个深度学习大厦的核心数学工具与机器学习概念。这不仅仅是“复习”,更是从深度学习的视角,重新理解这些工具的意义与威力。夏令营的笔试和面试中,对基础概念的深刻理解,往往是区分普通和优秀候选人的关键。
1.1 核心数学工具箱
深度学习本质上是应用数学,尤其是线性代数、微积分和概率论的巧妙结合。
1.1.1 线性代数:从向量/矩阵到特征值/奇异值分解(SVD)
如果说数据是新时代的石油,那么线性代数就是开采和冶炼这些石油的重型装备。
-
向量 (Vector) 与矩阵 (Matrix):
- 核心认知:在深度学习中,我们不应再将向量和矩阵仅仅看作是数字的排列。要把它们看作是数据的核心载体。
- 一个向量(如 x∈Rnx \in \mathbb{R}^nx∈Rn)可以代表一个样本的特征(如一张图片拉平后的像素值、一个用户的画像数据)。
- 一个矩阵(如 X∈Rm×nX \in \mathbb{R}^{m \times n}X∈Rm×n)通常代表一个批次 (batch) 的数据,其中有 mmm 个样本,每个样本有 nnn 维特征。神经网络的权重 WWW 也以矩阵形式存在。
- 核心运算:矩阵乘法 (Matrix Multiplication) 是神经网络信息正向传播和反向传播的核心。一个输入向量 xxx 经过一个线性层(权重为 WWW,偏置为 bbb)的变换,就是一次矩阵乘法和向量加法:y=Wx+by = Wx + by=Wx+b。
- 核心认知:在深度学习中,我们不应再将向量和矩阵仅仅看作是数字的排列。要把它们看作是数据的核心载体。
-
特征值 (Eigenvalues) 与特征向量 (Eigenvectors):
- 定义:对于一个方阵 AAA,若存在一个非零向量 vvv 和一个标量 λ\lambdaλ,使得 Av=λvAv = \lambda vAv=λv,则 λ\lambdaλ 是 AAA 的一个特征值,vvv 是对应的特征向量。
- 几何直觉:矩阵 AAA 对其特征向量 vvv 的变换,仅仅是对 vvv 进行缩放(缩放因子为特征值 λ\lambdaλ),而不改变其方向。特征向量是矩阵变换过程中的“不动”方向。
- 应用启示:特征值分解可以揭示矩阵的主要变换方向,这在主成分分析(PCA)等降维算法中至关重要。
-
奇异值分解 (Singular Value Decomposition, SVD):
- 定义:对于任意一个 m×nm \times nm×n 的矩阵 AAA,SVD可以将其分解为三个矩阵的乘积:
A=UΣVTA = U \Sigma V^TA=UΣVT
其中,UUU 是一个 m×mm \times mm×m 的正交矩阵,VVV 是一个 n×nn \times nn×n 的正交矩阵,Σ\SigmaΣ 是一个 m×nm \times nm×n 的对角矩阵,其对角线上的元素称为奇异值 (Singular Values)。 - 为什么重要:SVD比特征值分解更具普适性,因为它可以应用于任何形状的矩阵。奇异值可以看作是矩阵 AAA 在各个“奇异向量”方向上拉伸尺度的量度,体现了矩阵所包含的“主要信息”。
- 应用启示:在推荐系统、图像压缩、自然语言处理的话题模型(如LSA)中,SVD都是实现降维和特征提取的强大工具。它可以帮助我们从庞大的数据矩阵中发现最重要的模式。
- 定义:对于任意一个 m×nm \times nm×n 的矩阵 AAA,SVD可以将其分解为三个矩阵的乘积:
1.1.2 微积分:梯度的本质、链式法则(反向传播的灵魂)
如果说线性代数定义了神经网络的“静态结构”,那么微积分则赋予了它“动态学习”的能力。
-
梯度 (Gradient):
- 本质:对于一个多元函数 f(x1,x2,…,xn)f(x_1, x_2, \dots, x_n)f(x1,x2,…,xn),其梯度 ∇f\nabla f

最低0.47元/天 解锁文章
5394

被折叠的 条评论
为什么被折叠?



