为什么“随机变量”是个函数?为什么“函数相加”会产生高斯分布?

随机变量是什么

随机变量是什么?如果你翻开概率论的书,那么你大概率会看到:

定义: 随机变量是定义在概率空间 ( Ω , F , P ) (\Omega,\mathcal{F} ,P) (Ω,F,P) 上的一个实函数 X : Ω → R X:\Omega\rightarrow \mathbb{R} X:ΩR,它必须满足可测性条件:对于任意的 x ∈ R x\in \mathbb{R} xR,集合 ω ∈ Ω ∣ X ( ω ) ≤ x ∈ F \omega \in \Omega\mid X(\omega )\leq x\in \mathcal{F} ωΩX(ω)xF。对于 R \mathbb{R} R 上的任意Borel可测集 S ⊆ R S\subseteq \mathbb{R} SR,其原像 X − 1 ( S ) = { ω ∈ Ω ∣ X ( ω ) ∈ S } X^{-1} (S)=\{\omega \in \Omega\mid X(\omega )\in S\} X1(S)={ωΩX(ω)S}都属于 F \mathcal{F} F,即它是一个事件。

看到这里可能你会充满迷惑:

怎么随机变量是一个函数?

你怎么会说一个变量是一个函数??

一个函数又是怎么服从某个分布的???

最后,中心极限定理里面随机变量的求和然后服从高斯分布是什么情况????

关于第一个问题“随机变量”(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量(比如 x = 5 x=5 x=5 里的 x x x),它是一个函数 (Function)。

它到底在干什么?一句话总结:它是一个“翻译官”或“测量工具”。

它的工作是把现实世界中乱七八糟的、非数字的“随机结果 ω \omega ω”,“翻译”成一个我们可以做数学计算的“实数 x x x”。

我们可以用售货机来类比:设 Ω \Omega Ω (样本空间),存在以下"样本"

  • ω 1 = \omega _{1} = ω1= “启动可乐轨道”
  • ω 2 = \omega _{2} = ω2= “启动雪碧轨道”
  • ω 3 = \omega _{3} = ω3= “启动矿泉水轨道”

于是我们可以设 P P P (概率测度): 为按某个按钮的概率。

  • P ( ω 1 ) = 50 % P(\omega _{1} )=50\% P(ω1)=50%, P ( ω 2 ) = 30 % P(\omega _{2} )=30\% P(ω2)=30%, P ( ω 3 ) = 20 % P(\omega _{3} )=20\% P(ω3)=20%

于是** X X X (随机变量/函数): ** 就是这台机器的**“定价系统”**,是一个函数:

  • X ( ω 1 ) = 3.0 X(\omega _{1} )=3.0 X(ω1)=3.0
  • X ( ω 2 ) = 3.0 X(\omega _{2} )=3.0 X(ω2)=3.0
  • X ( ω 3 ) = 2.0 X(\omega _{3} )=2.0 X(ω3)=2.0

我们(作为用户)从不关心机器内部是 ω 1 \omega _{1} ω1 还是 ω 2 \omega _{2} ω2 被触发了。我们只关心我们最终观测到的那个输出值

我们问 P ( X = 3.0 ) P(X=3.0) P(X=3.0),这其实是简写,它的全称是:
P ( { ω ∈ Ω ∣ X ( ω ) = 3.0 } ) = P ( { ω 1 , ω 2 } ) = 50 % + 30 % = 80 % P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\% P({ωΩX(ω)=3.0})=P({ω1,ω2})=50%+30%=80%

所以它是一个执行 ω → x \omega \rightarrow x ωx 的映射函数。而它被称为变量,是因为我们只关心它的输出值 x x x

分布是什么?

在说分布是什么之前,先考虑一个问题,既然随机变量是个函数,那么如果我们说两个随机变量是同分布,那么他们的函数是不是就是相等的呢?

你可能会觉得是,但实际上“同分布” 并不一定 “函数相等”。

我们之所以觉得是,我们或许可以考虑抛硬币的例子:

场景:只抛一次硬币样本空间

  • Ω: {正面, 反面}
  • 概率 P: P(正面) = 1/2, P(反面) = 1/2

此时我们定义随机变量 X:

X(正面) = 1

X(反面) = 0

定义随机变量 Y:

如果我们想让 Y 也代表这次抛掷的结果,那么唯一的可能就是:

Y(正面) = 1

Y(反面) = 0

所以从这个角度来讲,他们就是相等的。

那函数不是很正确吗,然而当我们在讨论同分布的时候,我们往往讨论的东西是,他们的求和,他们的联合分布,也就是多次抛硬币的场景,那么此时,我们往往研究的对象是,比如连续抛两次,出现正面的次数:
S = X 1 + X 2 S=X_{1} +X_{2} S=X1+X2
此时,S也是一个函数,满足:
S ( ω ) = X 1 ( ω ) + X 2 ( ω ) S( \omega ) =X_{1}( \omega ) +X_{2}( \omega ) S(ω)=X1(ω)+X2(ω)
这时候他们就不再是相同的函数了。

为什么?

首先, X \displaystyle X X Y \displaystyle Y Y模型非常完美,但它只能描述一次抛掷。在这个世界里,只存在一次抛掷,只存在一个结果,也只存在一个随机变量 X,而无法定义我们这个新的随机变量S。

当我们说“连续抛两次”时,这已经超出了这个旧模型的描述能力。旧模型里根本没有“第一次”、“第二次”的概念。

为了描述“连续抛两次”这个新的物理现象,我们必须构建一个新的样本空间,才能够正确定义我们这个新的随机变量S的函数:

  • 新样本空间 Ω 新 \displaystyle \Omega _{新} Ω: Ω 旧 × Ω 旧   =   { ω 1 = ( H , H ) ,   ω 2 = ( H , T ) , ω 3 = ( T , H ) , ω 4 = ( T , T ) } \displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\} Ω×Ω = {ω1=(H,H), ω2=(H,T),ω3=(T,H),ω4=(T,T)}

这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点 Ω 新 \displaystyle \Omega _{新} Ω 代表一个完整的、有序的两次抛掷实验的结果。

为了适应这个新场景

我们需要重新定义随机变量:

  • 新随机变量 X₁: Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} ΩR

  • 定义规则:忽略第二个分量,将第一个分量代入旧的 X 函数。

  • X 1 ( s 1 ,   s 2 )   =   X ( s 1 ) \displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1}) X1(s1, s2) = X(s1) //注意,这里的 X 是旧的那个函数

  • 新随机变量 X₂: Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} ΩR

  • 定义规则:忽略第一个分量,将第二个分量代入旧的 X 函数。

  • X 2 ( s 1 ,   s 2 )   =   X ( s 2 ) \displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2}) X2(s1, s2) = X(s2) //注意,这里的 X 是旧的那个函数

这才是连续抛两次硬币的随机变量的定义。

所以这时候你就会发现,这两个函数式不一样的!

例如取 ω 2 = ( H , T ) \omega _{2} =(H,T) ω2=(H,T),那么
* X 1 ( ω 2 ) = 1 X_{1} (\omega _{2} )=1 X1(ω2)=1 (因为第一次是 H)
* X 2 ( ω 2 ) = 0 X_{2} (\omega _{2} )=0 X2(ω2)=0 (因为第二次是 T)
* X 1 ( ω 2 ) ≠ X 2 ( ω 2 ) X_{1} (\omega _{2} )\neq X_{2} (\omega _{2} ) X1(ω2)=X2(ω2)。所以 X 1 X_{1} X1 X 2 X_{2} X2 是两个不同的函数。

那它们同分布吗?是的,因为,

  • P ( X 1 = 1 ) = P ( { ω 1 , ω 2 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2 P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2
  • P ( X 1 = 0 ) = P ( { ω 3 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2 P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2
  • X 1 X_{1} X1 的分布是 {50% 概率 1, 50% 概率 0}。
  • P ( X 2 = 1 ) = P ( { ω 1 , ω 3 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2 P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2
  • P ( X 2 = 0 ) = P ( { ω 2 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2 P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2
  • X 2 X_{2} X2 的分布也是 {50% 概率 1, 50% 概率 0}。

所以,他们是不同的函数,却拥有相同的分布,最重要的是,在这里例子中,他们每个函数只看自己的维度,此时我们就发现了独立性

怎么理解中心极限定理?

我们将上面的例子进一步推广,那么中心极限定理就是研究这个新函数
S n = X 1 + X 2 + … + X n S_{n} =X_{1} +X_{2} +\dotsc +X_{n} Sn=X1+X2++Xn
那么函数 S n S_{n} Sn 要如何产生高斯分布?

首先,根据我们上面的定义,它也是一个函数:
S n ( ω ) = X 1 ( ω ) + X 2 ( ω ) + … + X n ( ω ) S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega ) Sn(ω)=X1(ω)+X2(ω)++Xn(ω)
在我们扔 n n n 次硬币的例子中:
S n ( ω ) S_{n} (\omega ) Sn(ω) = X 1 X_{1} X1 (看第1维) + … + X n X_{n} Xn (看第n维) = ω \omega ω 序列中 H 的总个数

我们问:为什么 S n S_{n} Sn 这个函数(数H的个数)的“输出值”会服从高斯分布?

那么这个问题的设定是:

  1. 高维样本点 ω \omega ω 一个 n n n 维的向量,例如 ω = ( H , T , H , H , … , T ) \omega =(H,T,H,H,\dotsc ,T) ω=(H,T,H,H,,T)

  2. n n n 个独立函数 X i X_{i} Xi X i X_{i} Xi 是一个“投影”函数,它只看 ω \omega ω 的第 i i i 个维度。

    • X 1 ( ω ) = X 1 ( H , T , …   ) = H → 1 X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1 X1(ω)=X1(H,T,)=H1
    • X 2 ( ω ) = X 2 ( H , T , …   ) = T → 0 X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0 X2(ω)=X2(H,T,)=T0
    • X 3 ( ω ) = X 3 ( H , T , …   ) = H → 1 X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1 X3(ω)=X3(H,T,)=H1
  3. 求和函数 S n S_{n} Sn

S n ( ω ) = ∑ i = 1 n X i ( ω ) S_{n} (\omega )=\sum _{i=1}^{n} X_{i} (\omega ) Sn(ω)=i=1nXi(ω)
在这个例子中, S n ( ω ) S_{n} (\omega ) Sn(ω) 就是简单地“计算 ω \omega ω 序列中 H 的总个数”

因此,我们的问题是:

为什么 S n S_{n} Sn 这个函数(“数H的个数”)的输出值的分布会是高斯分布?

那么分布其实就是看 S n S_{n} Sn 在映射时,哪个输出点“更拥挤”,我们来数一数:

  • S n S_{n} Sn 输出 k = n k=n k=n (极端值):
    S n ( ω ) = n S_{n} (\omega )=n Sn(ω)=n 意味着“H的个数为n”。
    2 n 2^{n} 2n ω \omega ω 中,有几个满足?
    只有 1 个: ω = ( H , H , … , H ) \omega =(H,H,\dotsc ,H) ω=(H,H,,H)
    这需要 n n n X i X_{i} Xi 同时为1

  • S n S_{n} Sn 输出 k = 0 k=0 k=0 (极端值):
    S n ( ω ) = 0 S_{n} (\omega )=0 Sn(ω)=0 意味着“H的个数为0”。
    只有 1 个: ω = ( T , T , … , T ) \omega =(T,T,\dotsc ,T) ω=(T,T,,T)

  • S n S_{n} Sn 输出 k = n / 2 k=n/2 k=n/2 (中间值):
    S n ( ω ) = n / 2 S_{n} (\omega )=n/2 Sn(ω)=n/2 意味着“H的个数为 n / 2 n/2 n/2”。
    有多少个 ω \omega ω 满足?
    这等于“从 n n n 个位置中选 n / 2 n/2 n/2 个位置放 H”。
    数量是 C ( n , n / 2 ) C(n,n/2) C(n,n/2) (组合数)。

这,就是高斯分布。

高斯分布(钟形曲线)的形状,就是 C ( n , k ) C(n,k) C(n,k) 这个组合数函数 k k k 的形状,也就是二项分布 B ( n , p ) B(n,p) B(n,p) n n n 很大时的极限)。

因此,直觉上CLT之所以成立,就是因为落在中间的位置的可能性更多,而两边少。

而这个直觉是可以推广到任意独立同分布的情况,而这就是中心极限定理了。

### 数学原理 当考虑两个独立的高斯分布 \( X \sim N(\mu_X, \sigma_X^2) \) 和 \( Y \sim N(\mu_Y, \sigma_Y^2) \),它们相加后的随机变量 \( Z = X + Y \) 的性质可以通过特征函数来分析。对于任意实数 \( t \),\( X \) 和 \( Y \) 的特征函数分别为: \[ \phi_X(t) = e^{i\mu_Xt - \frac{1}{2}\sigma_X^2t^2} \] \[ \phi_Y(t) = e^{i\mu_Yt - \frac{1}{2}\sigma_Y^2t^2} \] 因为 \( X \) 和 \( Y \) 是相互独立的,所以 \( Z \) 的特征函数可以表示为两者特征函数的乘积: \[ \phi_Z(t) = E[e^{itZ}] = E[e^{it(X+Y)}] = E[e^{itX}]E[e^{itY}] = \phi_X(t)\phi_Y(t) \] 代入上述表达式得到: \[ \phi_Z(t) = e^{i\mu_Xt - \frac{1}{2}\sigma_X^2t^2}e^{i\mu_Yt - \frac{1}{2}\sigma_Y^2t^2} = e^{i(\mu_X+\mu_Y)t-\frac{1}{2}(\sigma_X^2+\sigma_Y^2)t^2} \] 这表明新随机变量 \( Z \) 的特征函数具有标准形式,对应于一个新的高斯分布 \( N(\mu_X + \mu_Y,\; \sigma_X^2 + \sigma_Y^2) \)[^3]。 因此,通过特征函数方法可证得两个独立同分量的高斯分布之和仍然是一个高斯分布,并且新的均值等于原来两者的总和而方差则是各自方差之和。 ```python import numpy as np from scipy.stats import norm # 定义两个不同的高斯分布参数 mean_x, std_dev_x = 0, 1 mean_y, std_dev_y = 2, 3 # 创建样本数据集 samples_x = norm.rvs(loc=mean_x, scale=std_dev_x, size=10000) samples_y = norm.rvs(loc=mean_y, scale=std_dev_y, size=10000) # 计算这两个分布的和 sum_samples = samples_x + samples_y # 新分布应该是一个N(mean_x + mean_y, sqrt(std_dev_x**2 + std_dev_y**2))的正态分布 new_mean = mean_x + mean_y new_std_dev = (std_dev_x ** 2 + std_dev_y ** 2) ** 0.5 print(f"New distribution parameters: Mean={new_mean}, Std Deviation={new_std_dev}") ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值