Datawhale2021年11月组队学习——绪论与深度学习概述&数学基础_一般是指通过训练多层网络结构对未知数据进行分类或回归是哪本书定义-优快云博客

本文链接：https://blog.youkuaiyun.com/zxc123qwer/article/details/121363403

本文总结了Datawhale2021年11月深度学习课程的内容，涵盖了人工智能的定义及其发展阶段，从弱人工智能到超级人工智能的层次。深度学习作为人工智能的重要分支，涉及有监督和无监督学习，广泛应用在图像处理、语音识别和自然语言处理等领域。文章还强调了数学基础的重要性，包括矩阵、张量的概念，特征值、奇异值分解以及概率统计的基础知识，如随机变量、概率分布和统计量。此外，信息熵、互信息和相对熵等信息论概念也有所提及。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的绪论与深度学习概述以及数学基础的简要总结，其中小部分内容参考了网上一些资料。
原文链接： https://datawhalechina.github.io/unusual-deep-learning/

绪论与深度学习概述

人工智能

定义：利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

弱人工智能：认为不可能制造出能真正进行推理和解决问题的智能机器，这些机器只是看起来是智能的，其没有自主意识。
强人工智能：认为有可能制造出真正能推理和解决问题的智能机器，其拥有自主意识。
超级人工智能：机器的智能彻底超越人类。

人工智能的三次浪潮：

第一阶段——人工智能的诞生：基于符号逻辑推理证明阶段。
第二阶段——人工智能步入产业化：基于人工规则的专家系统阶段。
第三阶段——人工智能迎来爆发：大数据驱动的深度神经网络阶段。

机器学习

定义：让计算机具有像人一样的学习和思考能力的技术的总称。

按学习结果分类：

预测：一般用回归（Regression，Arima）等模型。
聚类：如K-means等方法。
分类：如支持向量机，逻辑回归等。
降维：如主成分分析（PCA）。

按学习方法分类：

监督学习（如深度学习）。
无监督学习（如聚类）。
半监督学习。
常见的概率分布强化学习。

深度学习

定义：一般是指通过训练多层网络结构对未知数据进行分类或回归。

分类：

有监督学习：深度前馈网络、卷积神经网络、循环神经网络等。
无监督学习：深度信念网、深度玻尔兹曼机，深度自编码器等。

主要应用：

图像处理领域：物体识别：物体检测，图像分割，图像回归。
语音识别领域：语音识别，声纹识别，语音合成。
自然语言处理领域：语言模型，情感分析，机器翻译，自动摘要，机器阅读理解，自然语言推理，文本纠错。
综合应用：图像描述，可视问答，图像生成，视频生成。

数学基础

矩阵基本知识

矩阵概念：是一个二维数组，一般由两个索引来表示其中的每一个元素，用大写变量表示。（m行n列的实数矩阵，记做A∈ $R_{m×n}$ ）

张量概念：是矢量概念的推广，可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

标量、矢量、张量关系：标量是0阶张量，矢量是一阶张量，矩阵是二阶张量，三维及以上数组一般称为张量。

矩阵的秩：矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，同样可以定义行秩。行秩=列秩=矩阵的秩。

矩阵的逆：对于矩阵A，其逆矩阵 $A^{-1}$ 满足以下条件，称 $A^{-1}$ 为矩阵A的逆矩阵：
$AA^{-1}=A^{-1}A=I_{n}$ (其中 $I_{n}$ 是n×n的单位阵)

奇异矩阵：若矩阵A为方阵，当 $rank(A_{n×n})<n$ 时，称A为奇异矩阵或不可逆矩阵。
非奇异矩阵：若矩阵A为方阵，当 $rank(A_{n×n})=n$ 时，称A为非奇异矩阵或可逆矩阵。

矩阵的广义逆矩阵

对于矩阵A，如果A不为方阵或者是奇异矩阵，存在矩阵B使得使得 $A B A = A$ ，则称 B 为 A 的广义逆矩阵。

矩阵分解

回顾特征值和特征向量
定义如下：

若矩阵 A为方阵，存在非零向量x和常数λ 满足 $A x = λ x$ ，则称λ 为矩阵A 的一个特征值，x为矩阵A 关于λ 的特征向量。
$A_{n×n}$ 的矩阵具有 n 个特征值, $λ_{1}≤λ_{2}≤λ_{3}≤⋯≤λ_{n}$ ,其对应n个特征向量 $u_{1},u_{2},u_{3},⋯,u_{n}$

奇异值分解：对于任意矩阵 $A_{m×n}$ ,存在正交矩阵 $U_{m×m}$ 和 $V_{n×n}$ ，使其满足
$A=U∑VT,UTU=VTV=IA=U\sum{}V^{T} , U^{T}U=V^{T}V=I$ ,则称上式为矩阵A的特征分解。
在这里插入图片描述

对于奇异值分解详细的讲解及推导，可以学习这篇关于SVD的总结（https://zhuanlan.zhihu.com/p/29846048）

概率统计

随机变量：

随机变量是随机事件的数量表现。

离散随机变量：指拥有有限个或者可列无限多个状态的随机变量。
连续随机变量：指变量值不可随机列举出来的随机变量，一般取实数值。

常见的概率分布

伯努利分布

又称0-1分布，是单个二值型离散随机变量的分布，其概率分布 $P (X = 1) = p, P (X = 0) = 1 - p$ .

二项分布

二项分布即重复n次伯努利试验，各试验相互独立
如果每次试验时，事件发生的概率为p，不发生的概率为1-p，则n次重复独立试验中事件发生k次的概率为
$P(X=k) =C_{n}^{k}p^{k}(1-p)^{n-k}$

均匀分布

又称矩形分布，在给定长度间隔[a,b]内的分布概率是等可能的。
概率密度函数为： $P(x)=1b−aP(x)=\frac{1}{b-a}$

高斯分布

又称正态分布，是实数中最常用的分布，由均值μ和标准差σ决定其分布。

指数分布

常用来表示独立随机事件发生的时间间隔，参数为λ>0的指数分布概率密度函数为 $p(x)=λe ^{−λx}, x≥0$ . 指数分布重要特征是无记忆性。

多变量概率分布

条件概率：事件X在事件Y发生的条件下发生的概率， $P (X ∣ Y)$
联合概率：表示两个事件X和Y共同发生的概率， $P (X, Y)$
性质： $P(Y∣X)=P(Y,X)P(X)P(Y|X)=\frac{P(Y,X)}{P(X)}$ ,其中 P(X)>0

先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，

后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。

全概率公式

全概率就是表示达到某个目的，有多种方式（或者造成某种结果，有多种原因），问达到目的的概率是多少（造成这种结果的概率是多少）。
全概率公式：
设事件 $L_{1},L_{2},...,L_{n}$ 是一个完备事件组，则对于任意一个事件Ｃ，若有如下公式成立：
在这里插入图片描述

那么就称这个公式为全概率公式。

贝叶斯公式

贝叶斯公式就是当已知结果，问导致这个结果的第i原因的可能性是多少。
贝叶斯公式：
在这里插入图片描述

常用统计量

方差：度量单个随机变量的离散程度。
协方差：度量两个随机变量（变化趋势）的相似程度。

信息论

熵

信息熵，可以看作是样本集合纯度一种指标，也可以认为是样本集合包含的平均信息量,信息熵越小，样本纯度越高。
假定当前样本集合X中第i类样本 $x_{i}$ 所占的比例为 $P(x_{i})(i=1,2,...,n)$ ，则x的信息熵定义为：
$H(X)=−∑i=1nP(xi)log2P(xi)H(X)=-\sum_{i=1}^{n}P(x_{i})log_{2}P(x_{i})$

联合熵

两个随机变量X和Y的联合分布可以形成联合熵，度量二维随机变量XY的不确定性：
$H(X,Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi,yi)H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i},y_{i})$