17天学习之深度学习task01绪论与数学基础

原创于 2021-11-16 15:19:34 发布 · 549 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #概率论 #机器学习

深度学习专栏收录该内容

15 篇文章

订阅专栏

本文将引导你探索机器学习的三大核心分支——有监督学习，通过教师指导掌握线性回归等方法；无监督学习，通过自我学习理解聚类和主成分分析；强化学习，通过自我评价深化理解Q学习。同时涵盖数学基础如矩阵论和概率统计，以及信息论中的熵和条件熵。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

绪论和深度学习概述

机器学习分类

名称	老师	学习方式	评价标准
有监督学习	有老师	跟着老师学	老师判断
无监督学习	无老师	自学	特定标准评价
强化学习	无老师	自学	自己评价

数学基础

矩阵论

矩阵的基本知识

矩阵：一个二维数组，常用大写字母表示，比如矩阵A；
张量：0阶张量是标量；1阶张量是矢量；2阶张量是矩阵；3阶及以上叫张量；
矩阵的秩：rank(A)
矩阵的逆：① 是方阵②满秩；则是可逆矩阵；
矩阵的广义逆矩阵：①不是方阵的时候② 是奇异矩阵的时候。若ABA = A，则B是A的广义逆矩阵

矩阵分解

矩阵的特征分解： ${n\times n}$ 具有n个不同的特征值，那么矩阵A可分解为 $U\sum U^T$ ;其中： $∑\sum$ = $[λ10⋯00λ2⋯000⋱⋮00⋯λn]\begin{bmatrix} \lambda_1&0&\cdots& 0\\ 0&\lambda_2&\cdots&0\\ 0&0&\ddots&\vdots\\ 0&0&\cdots&\lambda_n \end{bmatrix}$ ,U = $,un][u_1,u_2,\cdots,u_n]$ ,
在这里插入图片描述

概率统计

随机变量

离散型随机变量
连续型随机变量

常见的概率分布

伯努利分布（0—1分布）

实验只进行一次
实验结果只有两种可能

二项分布

n次重复的伯努利
每次之间相互独立

均匀分布

高斯分布（正态分布）

由均值和标准差决定

指数分布

无记忆性
$\lambda*e^{-\lambda x}$

多变量概率分布

条件概率 P(X|Y)

联合概率 P(X,Y)

P(Y|X) = $P(Y,X)P(X)\displaystyle\frac{P(Y,X)}{P(X)}$ ,其中P(X)>0

先验概率

后验概率

全概率公式

在这里插入图片描述

贝叶斯公式

在这里插入图片描述

常用的统计量

方差

var(x) = E( $X^2$ ) - ${E(X)}^2$

协方差

Cov(X,Y) = E(XY) - E(X)E(Y)

信息论

熵

$-\sum_{i = 1}^nP(x_i)\log_2{P(x_i)}$ ，其中X是样本集合， $x_i$ 是某个样本， $P(x_i)$ 是 $x_i$ 样本在总样本中占的比重

H(X)的值越小，X的纯度越高，蕴含的不确定性越少
比如均匀分布的熵比非均匀分布大一些

联合熵

两个随机变量X和Y的联合分布可以形成联合熵，度量XY的不确定性；
$-\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(x_i,y_i)}$

条件熵

在随机变量X发生的前提下，随机变量Y发生带来的熵，定义为Y的条件熵，用H(Y|X)表示,也就是在已经X的情况下，Y的不确定性

$-\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(y_i|x_i)}$

三个熵之间的关系

H(Y|X) = H(X,Y) - H(X)

互信息

I(X,Y) = H(X) +H(Y) -H(X,Y)
在这里插入图片描述

相对熵

描述两个概率分布P、Q差异的一种方法；
D(P||Q) 表示用概率分布Q来拟合真实分布P，产生的信息损耗；
离散形式： $\sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}$
连续形式： $\int P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}$

交叉熵

$\sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}= \sum P(x)\log P(x) -\sum P(x)\log Q(x) = -H(P(x)) + (-\sum P(x)\log Q(x))$

其中， $−∑P(x)log⁡Q(x)-\sum P(x)\log Q(x)$ 就叫做交叉熵，记作H(P,Q)
由于相对熵 = 交叉熵 + 常数（因为P分布是确定的，他的熵也是确定的常数）
经常作为损失函数去评估

最优化估计

最小二乘法

最小二乘法就是寻找最小的 $∑(观测值−理论值)2\sum (观测值-理论值)^2$ (残差平方和)
最小二乘法是直接求导找出全局最优；梯度下降是逐次迭代找到局部最优；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。