Datawhale2021年11月组队学习——绪论与深度学习概述&数学基础

本文总结了Datawhale2021年11月深度学习课程的内容,涵盖了人工智能的定义及其发展阶段,从弱人工智能到超级人工智能的层次。深度学习作为人工智能的重要分支,涉及有监督和无监督学习,广泛应用在图像处理、语音识别和自然语言处理等领域。文章还强调了数学基础的重要性,包括矩阵、张量的概念,特征值、奇异值分解以及概率统计的基础知识,如随机变量、概率分布和统计量。此外,信息熵、互信息和相对熵等信息论概念也有所提及。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以下内容为对Datawhale2021年11月组队学习中“水很深的深度学习”课程的绪论与深度学习概述以及数学基础的简要总结,其中小部分内容参考了网上一些资料。
原文链接: https://datawhalechina.github.io/unusual-deep-learning/

绪论与深度学习概述

人工智能

定义:利用数字计算机或者数字计算机控制的机器模拟、延伸 和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理 论、方法、技术及应用系统。

弱人工智能:认为不可能制造出能真正进行推理和解决问题的智能机器,这些机器只是看起来是智能的,其没有自主意识。
强人工智能:认为有可能制造出真正能推理和解决问题的智能机器,其拥有自主意识。
超级人工智能:机器的智能彻底超越人类。

人工智能的三次浪潮:

  • 第一阶段——人工智能的诞生:基于符号逻辑推理证明阶段。
  • 第二阶段——人工智能步入产业化:基于人工规则的专家系统阶段。
  • 第三阶段——人工智能迎来爆发:大数据驱动的深度神经网络阶段。

机器学习

定义:让计算机具有像人一样的学习和思考能力的技术的总称。

按学习结果分类:

  • 预测:一般用回归(Regression,Arima)等模型。
  • 聚类:如K-means等方法。
  • 分类:如支持向量机,逻辑回归等。
  • 降维:如主成分分析(PCA)。

按学习方法分类:

  • 监督学习(如深度学习)。
  • 无监督学习(如聚类)。
  • 半监督学习。
  • 常见的概率分布强化学习。

深度学习

定义:一般是指通过训练多层网络结构对未知数据进行分类或回归。

分类:

  • 有监督学习:深度前馈网络、卷积神经网络、循环神经网络等。
  • 无监督学习:深度信念网、深度玻尔兹曼机,深度自编码器等。

主要应用:

  • 图像处理领域:物体识别:物体检测,图像分割,图像回归。
  • 语音识别领域:语音识别,声纹识别,语音合成。
  • 自然语言处理领域:语言模型,情感分析,机器翻译,自动摘要,机器阅读理解,自然语言推理,文本纠错。
  • 综合应用:图像描述,可视问答,图像生成,视频生成。

数学基础

矩阵基本知识

矩阵概念:是一个二维数组,一般由两个索引来表示其中的每一个元素,用大写变量表示。(m行n列的实数矩阵,记做A∈Rm×nR_{m×n}Rm×n

张量概念:是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

标量、矢量、张量关系:标量是0阶张量,矢量是一阶张量,矩阵是二阶张量,三维及以上数组一般称为张量。

矩阵的秩:矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩。

矩阵的逆:对于矩阵A,其逆矩阵A−1A^{-1}A1满足以下条件,称A−1A^{-1}A1为矩阵A的逆矩阵:
AA−1=A−1A=InAA^{-1}=A^{-1}A=I_{n}AA1=A1A=In (其中InI_{n}In是n×n的单位阵)

  • 奇异矩阵:若矩阵A为方阵,当 rank(An×n)<nrank(A_{n×n})<nrank(An×n)<n时,称A为奇异矩阵或不可逆矩阵。
  • 非奇异矩阵:若矩阵A为方阵,当 rank(An×n)=nrank(A_{n×n})=nrank(An×n)=n时,称A为非奇异矩阵或可逆矩阵。

矩阵的广义逆矩阵

对于矩阵A,如果A不为方阵或者是奇异矩阵,存在矩阵B使得使得 ABA=AABA=AABA=A,则称 B 为 A 的广义逆矩阵。

矩阵分解

回顾特征值和特征向量
定义如下:

  • 若矩阵 A为方阵,存在非零向量x和常数λ 满足Ax=λxAx=λxAx=λx,则称λ 为矩阵A 的一个特征值,x为矩阵A 关于λ 的特征向量。
  • An×nA_{n×n}An×n 的矩阵具有 n 个特征值,λ1≤λ2≤λ3≤⋯≤λnλ_{1}≤λ_{2}≤λ_{3}≤⋯≤λ_{n}λ1λ2λ3λn,其对应n个特征向量u1,u2,u3,⋯,unu_{1},u_{2},u_{3},⋯,u_{n}u1,u2,u3,,un
    在这里插入图片描述

奇异值分解:对于任意矩阵Am×nA_{m×n}Am×n,存在正交矩阵Um×mU_{m×m}Um×mVn×nV_{n×n}Vn×n,使其满足
A=U∑VT,UTU=VTV=IA=U\sum{}V^{T} , U^{T}U=V^{T}V=IA=UVT,UTU=VTV=I,则称上式为矩阵A的特征分解。
在这里插入图片描述

对于奇异值分解详细的讲解及推导,可以学习这篇关于SVD的总结(https://zhuanlan.zhihu.com/p/29846048)

概率统计

随机变量

随机变量是随机事件的数量表现。

  • 离散随机变量:指拥有有限个或者可列无限多个状态的随机变量。
  • 连续随机变量:指变量值不可随机列举出来的随机变量,一般取实数值。

常见的概率分布

伯努利分布

又称0-1分布,是单个二值型离散随机变量的分布,其概率分布P(X=1)=p,P(X=0)=1−pP(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1p.

二项分布

  • 二项分布即重复n次伯努利试验,各试验相互独立
  • 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
    P(X=k)=Cnkpk(1−p)n−kP(X=k) =C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk

均匀分布

  • 又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的。
  • 概率密度函数为: P(x)=1b−aP(x)=\frac{1}{b-a}P(x)=ba1
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aW8munMQ-1637062738188)(./1637057236375.png)]

高斯分布

又称正态分布,是实数中最常用的分布,由均值μ和标准差σ决定其分布。

指数分布

常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为p(x)=λe−λx,x≥0p(x)=λe ^{−λx}, x≥0p(x)=λeλx,x0. 指数分布重要特征是无记忆性。

多变量概率分布

  • 条件概率:事件X在事件Y发生的条件下发生的概率,P(X∣Y)P(X|Y)P(XY)
  • 联合概率:表示两个事件X和Y共同发生的概率,P(X,Y)P(X,Y)P(X,Y)
    性质:P(Y∣X)=P(Y,X)P(X)P(Y|X)=\frac{P(Y,X)}{P(X)}P(YX)=P(X)P(Y,X),其中 P(X)>0

先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,

后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计。

全概率公式

全概率就是表示达到某个目的,有多种方式(或者造成某种结果,有多种原因),问达到目的的概率是多少(造成这种结果的概率是多少)。
全概率公式:
设事件L1,L2,...,LnL_{1},L_{2},...,L_{n}L1,L2,...,Ln是一个完备事件组,则对于任意一个事件C,若有如下公式成立:
在这里插入图片描述

那么就称这个公式为全概率公式。

贝叶斯公式

贝叶斯公式就是当已知结果,问导致这个结果的第i原因的可能性是多少。
贝叶斯公式:
在这里插入图片描述

常用统计量

方差:度量单个随机变量的离散程度。
协方差:度量两个随机变量(变化趋势)的相似程度。

信息论

信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量,信息熵越小,样本纯度越高。
假定当前样本集合X中第i类样本xix_{i}xi所占的比例为P(xi)(i=1,2,...,n)P(x_{i})(i=1,2,...,n)P(xi)(i=1,2,...,n),则x的信息熵定义为:
H(X)=−∑i=1nP(xi)log2P(xi)H(X)=-\sum_{i=1}^{n}P(x_{i})log_{2}P(x_{i})H(X)=i=1nP(xi)log2P(xi)

联合熵

两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性:
H(X,Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi,yi)H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i},y_{i})H(X,Y)=i=1nj=1nP(xi,yi)log2P(xi,yi)

条件熵

在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示
熵、联合熵和条件熵之间的关系:H(Y∣X)=H(X,Y)−H(X)H(Y|X) = H(X,Y)-H(X)H(YX)=H(X,Y)H(X)

互信息

互信息:衡量随机变量之间相互依赖程度的度量。
I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)H(X,Y)

相对熵

相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P∣∣Q)D(P||Q)D(PQ)

  • 离散形式:D(P∣∣Q)=∑P(x)logP(x)Q(x)D(P||Q)=\sum P(x)log\frac{P(x)}{Q(x)}D(PQ)=P(x)logQ(x)P(x)
  • 连续形式:D(P∣∣Q)=∫P(x)logP(x)Q(x)D(P||Q)=\int P(x)log\frac{P(x)}{Q(x)}D(PQ)=P(x)logQ(x)P(x)

交叉熵

一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量。
交叉熵:H(P,Q)=−∑P(x)logQ(x)H(P,Q)=-\sum P(x)logQ(x)H(P,Q)=P(x)logQ(x)

最优化估计

最小二乘估计

最小二乘估计又称最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配,经常用于回归问题(曲线拟合,最大化熵等)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值