机器学习基础专题：随机变量

最新推荐文章于 2023-12-27 17:55:59 发布

野营者007

最新推荐文章于 2023-12-27 17:55:59 发布

阅读量521

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习基础数学和统计文章标签：机器学习协方差概率论统计

本文链接：https://blog.youkuaiyun.com/qq_40136685/article/details/108925869

本文深入探讨了机器学习中的随机变量概念，包括样本空间、事件集、概率函数、贝叶斯定理、独立事件、最大后验概率。详细介绍了离散和连续随机变量的性质，如概率质量函数、累积分布函数、概率密度函数，以及经典随机变量如伯努利、几何、二项、泊松分布等。此外，还讨论了期望、方差、矩和信息熵等重要概念，以及变量间的关系，如协方差、相关性和相关系数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

术语

样本空间(sample space)： $Ω\Omega$ ，包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。

事件集(event space): $F$ ，a collection of subsets of $Ω\Omega$ ，用来表示出现的结果。事件集未必是样本空间中的单一元素，也可以是复杂元素。比如在掷一次骰子的样本空间中，可以用{1,3,5}表示结果为奇数的事件。

概率函数(probability function): $P$ ，该函数完成了从事件到该事件发生概率的映射。

概率法则

贝叶斯

A的先验概率(prior probability of A): P(A)

A的后验概率(posterior probability of an event A given B): P(A|B)
$\frac {P(B|A)P(A)} {P(B)}$

独立事件

事件 $A_1, A_2,\ ...\ , A_n$ 相互独立，当且仅当该事件集合的所有子集满足条件 $,Aik)=∏j=1kP(Aij)P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij})$

最大后验概率

Maximum-a-posteriori (MAP)。

假设 $x, y$ 都是离散的。
$y^=f(x)=argmaxyp(y∣x)=argmaxyp(x∣y)p(y)=argmaxyp(x,y) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y)$
假设 $x$ 是连续的， $y$ 是离散的。
$y^=f(x)=argmaxyp(y∣x)=argmaxyf(x∣y)p(y) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y)$
缺点

随机变量相互独立的假设通常不成立
训练集中未出现某个值的样本导致概率为0，可以通过smoothing解决

信息熵

对于每一个事件，我们从它的发生能够获取到的信息是 $log(1P(A))log(\frac 1 {P(A)})$ 。这一个公式其实是符合我们的直觉。如果一个事件不常发生，那么当它发生的时候，透露的信息应该会比常见事件透露的信息更多。

信息熵的定义如下，
$-\sum_{i=1}^m p(x_i) log_2 p(x_i)$

随机变量

一般来说，我们使用大写字母表示随机变量本身，用对应的小写字母代表该变量的取值。

可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。

在这里插入图片描述

离散变量

满足条件 $\in \mathcal X) = 1$ for some countable set $X⊂R\mathcal X \sub R$ 。

离散变量可以被其概率质量函数充分说明。

概率质量函数

probability mass function (pmf)。定义 $\ \forall \ x \in X$ 。

性质：

$\ge 0$
$∑x∈Xp(x)=1\sum_{x \in X} p(x) = 1$

我们常用记号 $\sim p(x)$ 来表示X的pmf是p(x)。

累积分布函数

cumulative density function (cdf)。定义 $\le x)$ 。

性质

$\ge 0$ ，且单调非递减
$limx−>∞F(x)=1lim_{x->\infty} F(x) = 1$ ， $limx−>−∞F(x)=0lim_{x->-\infty} F(x) = 0$
$F (x)$ 是右连续的，即 $lim_{x->a^+} F(x) = F(a)$
$P(X=a) = F(a) \ - \ lim_{x->a^-} F(a)$