绪论和深度学习概述
机器学习分类
| 名称 | 老师 | 学习方式 | 评价标准 |
|---|---|---|---|
| 有监督学习 | 有老师 | 跟着老师学 | 老师判断 |
| 无监督学习 | 无老师 | 自学 | 特定标准评价 |
| 强化学习 | 无老师 | 自学 | 自己评价 |
数学基础
矩阵论
矩阵的基本知识
矩阵 :一个二维数组,常用大写字母表示,比如矩阵A;
张量:0阶张量是标量;1阶张量是矢量;2阶张量是矩阵;3阶及以上叫张量;
矩阵的秩:rank(A)
矩阵的逆:① 是方阵②满秩;则是可逆矩阵;
矩阵的广义逆矩阵:①不是方阵的时候② 是奇异矩阵的时候。若ABA = A,则B是A的广义逆矩阵
矩阵分解
矩阵的特征分解:An×nA {n\times n}An×n具有n个不同的特征值,那么矩阵A可分解为A=U∑UTA = U\sum U^TA=U∑UT;其中:∑\sum∑ = [λ10⋯00λ2⋯000⋱⋮00⋯λn]\begin{bmatrix}
\lambda_1&0&\cdots& 0\\
0&\lambda_2&\cdots&0\\
0&0&\ddots&\vdots\\
0&0&\cdots&\lambda_n
\end{bmatrix}⎣⎢⎢⎢⎡λ10000λ200⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤,U = [u1,u2,⋯ ,un][u_1,u_2,\cdots,u_n][u1,u2,⋯,un],

概率统计
随机变量
- 离散型随机变量
- 连续型随机变量
常见的概率分布
伯努利分布(0—1分布)
- 实验只进行一次
- 实验结果只有两种可能
二项分布
- n次重复的伯努利
- 每次之间相互独立
均匀分布
高斯分布(正态分布)
- 由均值和标准差决定
指数分布
- 无记忆性
- p(x)=λ∗e−λxp(x) = \lambda*e^{-\lambda x}p(x)=λ∗e−λx
多变量概率分布
条件概率 P(X|Y)
联合概率 P(X,Y)
P(Y|X) = P(Y,X)P(X)\displaystyle\frac{P(Y,X)}{P(X)}P(X)P(Y,X) ,其中P(X)>0
先验概率
后验概率
全概率公式

贝叶斯公式

常用的统计量
方差
var(x) = E(X2X^2X2) - E(X)2{E(X)}^2E(X)2
协方差
Cov(X,Y) = E(XY) - E(X)E(Y)
信息论
熵
H(X)=−∑i=1nP(xi)log2P(xi)H(X) = -\sum_{i = 1}^nP(x_i)\log_2{P(x_i)}H(X)=−i=1∑nP(xi)log2P(xi),其中X是样本集合,xix_ixi是某个样本,P(xi)P(x_i)P(xi)是xix_ixi样本在总样本中占的比重
- H(X)的值越小,X的纯度越高,蕴含的不确定性越少
- 比如均匀分布的熵比非均匀分布大一些
联合熵
- 两个随机变量X和Y的联合分布可以形成联合熵,度量XY的不确定性;
H(X,Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi,yi)H(X,Y) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(x_i,y_i)}H(X,Y)=−i=1∑nj=1∑nP(xi,yi)log2P(xi,yi)
条件熵
- 在随机变量X发生的前提下,随机变量Y发生带来的熵,定义为Y的条件熵,用H(Y|X)表示,也就是在已经X的情况下,Y的不确定性
H(Y∣X)=−∑i=1n∑j=1nP(xi,yi)log2P(yi∣xi)H(Y|X) = -\sum_{i=1}^n \sum_{j=1}^nP(x_i,y_i)\log_2{P(y_i|x_i)}H(Y∣X)=−i=1∑nj=1∑nP(xi,yi)log2P(yi∣xi)
三个熵之间的关系
- H(Y|X) = H(X,Y) - H(X)
互信息
I(X,Y) = H(X) +H(Y) -H(X,Y)

相对熵
- 描述两个概率分布P、Q差异的一种方法;
- D(P||Q) 表示用概率分布Q来拟合真实分布P,产生的信息损耗;
- 离散形式:D(P∣∣Q)=∑P(x)logP(x)Q(x)D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}D(P∣∣Q)=∑P(x)logQ(x)P(x)
- 连续形式:D(P∣∣Q)=∫P(x)logP(x)Q(x)D(P||Q) = \int P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}D(P∣∣Q)=∫P(x)logQ(x)P(x)
交叉熵
D(P∣∣Q)=∑P(x)logP(x)Q(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))+(−∑P(x)logQ(x))D(P||Q) = \sum P(x) \log{\displaystyle\frac{P(x)}{Q(x)}}= \sum P(x)\log P(x) -\sum P(x)\log Q(x) = -H(P(x)) + (-\sum P(x)\log Q(x))D(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))+(−∑P(x)logQ(x))
- 其中,−∑P(x)logQ(x)-\sum P(x)\log Q(x)−∑P(x)logQ(x)就叫做交叉熵,记作H(P,Q)
- 由于相对熵 = 交叉熵 + 常数(因为P分布是确定的,他的熵也是确定的常数)
- 经常作为损失函数去评估
最优化估计
最小二乘法
- 最小二乘法就是寻找最小的∑(观测值−理论值)2\sum (观测值-理论值)^2∑(观测值−理论值)2(残差平方和)
- 最小二乘法是直接求导找出全局最优;梯度下降是逐次迭代找到局部最优;
本文将引导你探索机器学习的三大核心分支——有监督学习,通过教师指导掌握线性回归等方法;无监督学习,通过自我学习理解聚类和主成分分析;强化学习,通过自我评价深化理解Q学习。同时涵盖数学基础如矩阵论和概率统计,以及信息论中的熵和条件熵。

被折叠的 条评论
为什么被折叠?



