以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的绪论与深度学习概述以及数学基础的简要总结,其中小部分内容参考了网上一些资料。
原文链接: https://datawhalechina.github.io/unusual-deep-learning/
绪论与深度学习概述
人工智能
定义:利用数字计算机或者数字计算机控制的机器模拟、延伸 和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理 论、方法、技术及应用系统。
弱人工智能:认为不可能制造出能真正进行推理和解决问题的智能机器,这些机器只是看起来是智能的,其没有自主意识。
强人工智能:认为有可能制造出真正能推理和解决问题的智能机器,其拥有自主意识。
超级人工智能:机器的智能彻底超越人类。
人工智能的三次浪潮:
- 第一阶段——人工智能的诞生:基于符号逻辑推理证明阶段。
- 第二阶段——人工智能步入产业化:基于人工规则的专家系统阶段。
- 第三阶段——人工智能迎来爆发:大数据驱动的深度神经网络阶段。
机器学习
定义:让计算机具有像人一样的学习和思考能力的技术的总称。
按学习结果分类:
- 预测:一般用回归(Regression,Arima)等模型。
- 聚类:如K-means等方法。
- 分类:如支持向量机,逻辑回归等。
- 降维:如主成分分析(PCA)。
按学习方法分类:
- 监督学习(如深度学习)。
- 无监督学习(如聚类)。
- 半监督学习。
- 常见的概率分布强化学习。
深度学习
定义:一般是指通过训练多层网络结构对未知数据进行分类或回归。
分类:
- 有监督学习:深度前馈网络、卷积神经网络、循环神经网络等。
- 无监督学习:深度信念网、深度玻尔兹曼机,深度自编码器等。
主要应用:
- 图像处理领域:物体识别:物体检测,图像分割,图像回归。
- 语音识别领域:语音识别,声纹识别,语音合成。
- 自然语言处理领域:语言模型,情感分析,机器翻译,自动摘要,机器阅读理解,自然语言推理,文本纠错。
- 综合应用:图像描述,可视问答,图像生成,视频生成。
数学基础
矩阵基本知识
矩阵概念:是一个二维数组,一般由两个索引来表示其中的每一个元素,用大写变量表示。(m行n列的实数矩阵,记做A∈Rm×nR_{m×n}Rm×n)
张量概念:是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。
标量、矢量、张量关系:标量是0阶张量,矢量是一阶张量,矩阵是二阶张量,三维及以上数组一般称为张量。
矩阵的秩:矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩。
矩阵的逆:对于矩阵A,其逆矩阵A−1A^{-1}A−1满足以下条件,称A−1A^{-1}A−1为矩阵A的逆矩阵:
AA−1=A−1A=InAA^{-1}=A^{-1}A=I_{n}AA−1=A−1A=In (其中InI_{n}In是n×n的单位阵)
- 奇异矩阵:若矩阵A为方阵,当 rank(An×n)<nrank(A_{n×n})<nrank(An×n)<n时,称A为奇异矩阵或不可逆矩阵。
- 非奇异矩阵:若矩阵A为方阵,当 rank(An×n)=nrank(A_{n×n})=nrank(An×n)=n时,称A为非奇异矩阵或可逆矩阵。
矩阵的广义逆矩阵
对于矩阵A,如果A不为方阵或者是奇异矩阵,存在矩阵B使得使得 ABA=AABA=AABA=A,则称 B 为 A 的广义逆矩阵。
矩阵分解
回顾特征值和特征向量
定义如下:
- 若矩阵 A为方阵,存在非零向量x和常数λ 满足Ax=λxAx=λxAx=λx,则称λ 为矩阵A 的一个特征值,x为矩阵A 关于λ 的特征向量。
- An×nA_{n×n}An×n 的矩阵具有 n 个特征值,λ1≤λ2≤λ3≤⋯≤λnλ_{1}≤λ_{2}≤λ_{3}≤⋯≤λ_{n}λ1≤λ2≤λ3≤⋯≤λn,其对应n个特征向量u1,u2,u3,⋯,unu_{1},u_{2},u_{3},⋯,u_{n}u1,u2,u3,⋯,un
奇异值分解:对于任意矩阵Am×nA_{m×n}Am×n,存在正交矩阵Um×mU_{m×m}Um×m和Vn×nV_{n×n}Vn×n,使其满足
A=U∑VT,UTU=VTV=IA=U\sum{}V^{T} , U^{T}U=V^{T}V=IA=U∑VT,UTU=VTV=I,则称上式为矩阵A的特征分解。
对于奇异值分解详细的讲解及推导,可以学习这篇关于SVD的总结(https://zhuanlan.zhihu.com/p/29846048)
概率统计
随机变量:
随机变量是随机事件的数量表现。
- 离散随机变量:指拥有有限个或者可列无限多个状态的随机变量。
- 连续随机变量:指变量值不可随机列举出来的随机变量,一般取实数值。
常见的概率分布
伯努利分布
又称0-1分布,是单个二值型离散随机变量的分布,其概率分布P(X=1)=p,P(X=0)=1−pP(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1−p.
二项分布
- 二项分布即重复n次伯努利试验,各试验相互独立
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P(X=k)=Cnkpk(1−p)n−kP(X=k) =C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
均匀分布
- 又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的。
- 概率密度函数为: P(x)=1b−aP(x)=\frac{1}{b-a}P(x)=b−a1
高斯分布
又称正态分布,是实数中最常用的分布,由均值μ和标准差σ决定其分布。
指数分布
常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为p(x)=λe−λx,x≥0p(x)=λe ^{−λx}, x≥0p(x)=λe−λx,x≥0. 指数分布重要特征是无记忆性。
多变量概率分布
- 条件概率:事件X在事件Y发生的条件下发生的概率,P(X∣Y)P(X|Y)P(X∣Y)
- 联合概率:表示两个事件X和Y共同发生的概率,P(X,Y)P(X,Y)P(X,Y)
性质:P(Y∣X)=P(Y,X)P(X)P(Y|X)=\frac{P(Y,X)}{P(X)}P(Y∣X)=P(X)P(Y,X),其中 P(X)>0
先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,
后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计。
全概率公式
全概率就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)。
全概率公式:
设事件L1,L2,...,LnL_{1},L_{2},...,L_{n}L1,L2,...,Ln是一个完备事件组,则对于任意一个事件C,若有如下公式成立:
那么就称这个公式为全概率公式。
贝叶斯公式
贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少。
贝叶斯公式:
常用统计量
方差:度量单个随机变量的离散程度。
协方差:度量两个随机变量(变化趋势)的相似程度。
信息论
熵
信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量,信息熵越小,样本纯度越高。
假定当前样本集合X中第i类样本xix_{i}xi所占的比例为P(xi)(i=1,2,...,n)P(x_{i})(i=1,2,...,n)P(xi)(i=1,2,...,n),则x的信息熵定义为:
H(X)=−∑i=1nP(xi)log2P(xi)H(X)=-\sum_{i=1}^{n}P(x_{i})log_{2}P(x_{i})H(X)=−i=1∑nP(xi)log2P(xi)
联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性:
H(X,Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi,yi)H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i},y_{i})H(X,Y)=−i=1∑nj=1∑nP(xi,yi)log2P(xi,yi)
条件熵
在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示
熵、联合熵和条件熵之间的关系:H(Y∣X)=H(X,Y)−H(X)H(Y|X) = H(X,Y)-H(X)H(Y∣X)=H(X,Y)−H(X)。
互信息
互信息:衡量随机变量之间相互依赖程度的度量。
I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)
相对熵
相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P∣∣Q)D(P||Q)D(P∣∣Q)。
- 离散形式:D(P∣∣Q)=∑P(x)logP(x)Q(x)D(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}D(P∣∣Q)=∑P(x)logQ(x)P(x)
- 连续形式:D(P∣∣Q)=∫P(x)logP(x)Q(x)D(P||Q)=\int P(x)log\frac{P(x)}{Q(x)}D(P∣∣Q)=∫P(x)logQ(x)P(x)
交叉熵
一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量。
交叉熵:H(P,Q)=−∑P(x)logQ(x)H(P,Q)=-\sum P(x)logQ(x)H(P,Q)=−∑P(x)logQ(x)
最优化估计
最小二乘估计
最小二乘估计又称最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配,经常用于回归问题(曲线拟合,最大化熵等)