机器学习基础专题:随机变量

本文深入探讨了机器学习中的随机变量概念,包括样本空间、事件集、概率函数、贝叶斯定理、独立事件、最大后验概率。详细介绍了离散和连续随机变量的性质,如概率质量函数、累积分布函数、概率密度函数,以及经典随机变量如伯努利、几何、二项、泊松分布等。此外,还讨论了期望、方差、矩和信息熵等重要概念,以及变量间的关系,如协方差、相关性和相关系数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

术语

样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合。比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示。

事件集(event space): FFF,a collection of subsets of Ω\OmegaΩ,用来表示出现的结果。事件集未必是样本空间中的单一元素,也可以是复杂元素。比如在掷一次骰子的样本空间中,可以用{1,3,5}表示结果为奇数的事件。

概率函数(probability function): PPP,该函数完成了从事件到该事件发生概率的映射。

概率法则

贝叶斯

A的先验概率(prior probability of A): P(A)

A的后验概率(posterior probability of an event A given B): P(A|B)
P(A∣B)=P(B∣A)P(A)P(B) P(A|B) = \frac {P(B|A)P(A)} {P(B)} P(AB)=P(B)P(BA)P(A)

独立事件

事件A1,A2, ... ,AnA_1, A_2,\ ...\ , A_nA1,A2, ... ,An相互独立,当且仅当该事件集合的所有子集满足条件P(Ai1,Ai2, ... ,Aik)=∏j=1kP(Aij)P(A_{i1}, A_{i2},\ ...\ , A_{ik}) = \prod_{j=1}^k P(A_{ij})P(Ai1,Ai2, ... ,Aik)=j=1kP(Aij)

最大后验概率

Maximum-a-posteriori (MAP)。

假设x,yx,yx,y都是离散的。
y^=f(x)=argmaxyp(y∣x)=argmaxyp(x∣y)p(y)=argmaxyp(x,y) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y p(x|y)p(y) \\\\ = argmax_y p(x,y) y^=f(x)=argmaxyp(yx)=argmaxyp(xy)p(y)=argmaxyp(x,y)
假设xxx是连续的,yyy是离散的。
y^=f(x)=argmaxyp(y∣x)=argmaxyf(x∣y)p(y) \hat y = f(x) = argmax_y p(y|x) \\\\ = argmax_y f(x|y)p(y) y^=f(x)=argmaxyp(yx)=argmaxyf(xy)p(y)
缺点

  1. 随机变量相互独立的假设通常不成立
  2. 训练集中未出现某个值的样本导致概率为0,可以通过smoothing解决

信息熵

对于每一个事件,我们从它的发生能够获取到的信息是log(1P(A))log(\frac 1 {P(A)})log(P(A)1)。这一个公式其实是符合我们的直觉。如果一个事件不常发生,那么当它发生的时候,透露的信息应该会比常见事件透露的信息更多。

信息熵的定义如下,
H(X)=−∑i=1mp(xi)log2p(xi) H(X) = -\sum_{i=1}^m p(x_i) log_2 p(x_i) H(X)=i=1mp(xi)log2p(xi)

随机变量

一般来说,我们使用大写字母表示随机变量本身,用对应的小写字母代表该变量的取值。

可以从CDF分辨一个随机变量是离散变量、连续变量、抑或是两者都不是。

在这里插入图片描述

离散变量

满足条件P(X∈X)=1P(X \in \mathcal X) = 1P(XX)=1 for some countable set X⊂R\mathcal X \sub RXR

离散变量可以被其概率质量函数充分说明。

概率质量函数

probability mass function (pmf)。定义p(x)=P(X=x) ∀ x∈Xp(x) = P(X=x) \ \forall \ x \in Xp(x)=P(X=x)  xX

性质:

  1. p(x)≥0p(x) \ge 0p(x)0
  2. ∑x∈Xp(x)=1\sum_{x \in X} p(x) = 1xXp(x)=1

我们常用记号X∼p(x)X \sim p(x)Xp(x)来表示X的pmf是p(x)。

累积分布函数

cumulative density function (cdf)。定义F(x)=P(X≤x)F(x) = P(X \le x)F(x)=P(Xx)

性质

  1. F(x)≥0F(x) \ge 0F(x)0,且单调非递减

  2. limx−>∞F(x)=1lim_{x->\infty} F(x) = 1limx>F(x)=1limx−>−∞F(x)=0lim_{x->-\infty} F(x) = 0limx>F(x)=0

  3. F(x)F(x)F(x) 是右连续的,即limx−>a+F(x)=F(a)lim_{x->a^+} F(x) = F(a)limx>a+F(x)=F(a)

  4. P(X=a)=F(a) − limx−>a−F(a)P(X=a) = F(a) \ - \ lim_{x->a^-} F(a)P(X=a)=F(a)  limx>aF(a)

经典的离散变量

Bernoulli

p(x)=px+(1−p)(1−x); x∈{ 0,1}p(x) = px + (1-p)(1-x); \ x \in \{0,1\}p(x)=px+(1p)(1x); x{ 0,1}

应用场景为投篮投进的概率。

Geometric

p(x)=p(1−p)xp(x) = p(1-p)^xp(x)=p(1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值