为什么“随机变量”是个函数？为什么“函数相加”会产生高斯分布？

原创已于 2025-11-13 09:51:14 修改 · 753 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

于 2025-11-12 23:04:34 首次发布

文章目录

随机变量是什么
分布是什么？
怎么理解中心极限定理？

随机变量是什么

随机变量是什么？如果你翻开概率论的书，那么你大概率会看到：

定义： 随机变量是定义在概率空间 $(\Omega,\mathcal{F} ,P)$ 上的一个实函数 $X:\Omega\rightarrow \mathbb{R}$ ，它必须满足可测性条件：对于任意的 $x\in \mathbb{R}$ ，集合 $\omega \in \Omega\mid X(\omega )\leq x\in \mathcal{F}$ 。对于 $\mathbb{R}$ 上的任意Borel可测集 $S\subseteq \mathbb{R}$ ，其原像 $X^{-1} (S)=\{\omega \in \Omega\mid X(\omega )\in S\}$ 都属于 $\mathcal{F}$ ，即它是一个事件。

看到这里可能你会充满迷惑：

怎么随机变量是一个函数？

你怎么会说一个变量是一个函数？？

一个函数又是怎么服从某个分布的？？？

最后，中心极限定理里面随机变量的求和然后服从高斯分布是什么情况？？？？

关于第一个问题“随机变量”(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量（比如 $x = 5$ 里的 $x$ ），它是一个函数 (Function)。

它到底在干什么？一句话总结：它是一个“翻译官”或“测量工具”。

它的工作是把现实世界中乱七八糟的、非数字的“随机结果 $\omega$ ”，“翻译”成一个我们可以做数学计算的“实数 $x$ ”。

我们可以用售货机来类比：设 $\Omega$ (样本空间)，存在以下"样本"

$\omega _{1} =$ “启动可乐轨道”
$\omega _{2} =$ “启动雪碧轨道”
$\omega _{3} =$ “启动矿泉水轨道”

于是我们可以设 $P$ (概率测度): 为按某个按钮的概率。

$P(\omega _{1} )=50\%$ , $P(\omega _{2} )=30\%$ , $P(\omega _{3} )=20\%$

于是** $X$ (随机变量/函数): ** 就是这台机器的**“定价系统”**，是一个函数：

$X(\omega _{1} )=3.0$
$X(\omega _{2} )=3.0$
$X(\omega _{3} )=2.0$

我们（作为用户）从不关心机器内部是 $\omega _{1}$ 还是 $\omega _{2}$ 被触发了。我们只关心我们最终观测到的那个输出值。

我们问 $P (X = 3.0)$ ，这其实是简写，它的全称是：
$P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\%$

所以它是一个执行 $\omega \rightarrow x$ 的映射函数。而它被称为变量，是因为我们只关心它的输出值 $x$ 。

分布是什么？

在说分布是什么之前，先考虑一个问题，既然随机变量是个函数，那么如果我们说两个随机变量是同分布，那么他们的函数是不是就是相等的呢？

你可能会觉得是，但实际上“同分布” 并不一定 “函数相等”。

我们之所以觉得是，我们或许可以考虑抛硬币的例子：

场景：只抛一次硬币样本空间

Ω: {正面, 反面}
概率 P: P(正面) = 1/2, P(反面) = 1/2

此时我们定义随机变量 X:

X(正面) = 1

X(反面) = 0

定义随机变量 Y:

如果我们想让 Y 也代表这次抛掷的结果，那么唯一的可能就是：

Y(正面) = 1

Y(反面) = 0

所以从这个角度来讲，他们就是相等的。

那函数不是很正确吗，然而当我们在讨论同分布的时候，我们往往讨论的东西是，他们的求和，他们的联合分布，也就是多次抛硬币的场景，那么此时，我们往往研究的对象是，比如连续抛两次，出现正面的次数：
$S=X_{1} +X_{2}$
此时，S也是一个函数，满足：
$\omega ) =X_{1}( \omega ) +X_{2}( \omega )$
这时候他们就不再是相同的函数了。

为什么？

首先， $\displaystyle X$ ， $\displaystyle Y$ 模型非常完美，但它只能描述一次抛掷。在这个世界里，只存在一次抛掷，只存在一个结果，也只存在一个随机变量 X，而无法定义我们这个新的随机变量S。

当我们说“连续抛两次”时，这已经超出了这个旧模型的描述能力。旧模型里根本没有“第一次”、“第二次”的概念。

为了描述“连续抛两次”这个新的物理现象，我们必须构建一个新的样本空间，才能够正确定义我们这个新的随机变量S的函数：

新样本空间 $\displaystyle \Omega _{新}$ : $\displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\}$

这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点 $\displaystyle \Omega _{新}$ 代表一个完整的、有序的两次抛掷实验的结果。

为了适应这个新场景

我们需要重新定义随机变量：

新随机变量 X₁: $\displaystyle \Omega_{新}\rightarrow \mathbb{R}$
定义规则：忽略第二个分量，将第一个分量代入旧的 X 函数。
$\displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1})$ //注意，这里的 X 是旧的那个函数
新随机变量 X₂: $\displaystyle \Omega_{新}\rightarrow \mathbb{R}$
定义规则：忽略第一个分量，将第二个分量代入旧的 X 函数。
$\displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2})$ //注意，这里的 X 是旧的那个函数

这才是连续抛两次硬币的随机变量的定义。

所以这时候你就会发现，这两个函数式不一样的！

例如取 $\omega _{2} =(H,T)$ ，那么
* $X_{1} (\omega _{2} )=1$ （因为第一次是 H）
* $X_{2} (\omega _{2} )=0$ （因为第二次是 T）
* $X_{1} (\omega _{2} )\neq X_{2} (\omega _{2} )$ 。所以 $X_{1}$ 和 $X_{2}$ 是两个不同的函数。

那它们同分布吗？是的，因为，

$P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2$
$P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2$
$X_{1}$ 的分布是 {50% 概率 1, 50% 概率 0}。
而
$P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2$
$P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2$
$X_{2}$ 的分布也是 {50% 概率 1, 50% 概率 0}。

所以，他们是不同的函数，却拥有相同的分布，最重要的是，在这里例子中，他们每个函数只看自己的维度，此时我们就发现了独立性！

怎么理解中心极限定理？

我们将上面的例子进一步推广，那么中心极限定理就是研究这个新函数：
$S_{n} =X_{1} +X_{2} +\dotsc +X_{n}$
那么函数 $S_{n}$ 要如何产生高斯分布？

首先，根据我们上面的定义，它也是一个函数：
$S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega )$
在我们扔 $n$ 次硬币的例子中：
$S_{n} (\omega )$ = $X_{1}$ (看第1维) + … + $X_{n}$ (看第n维) = $\omega$ 序列中 H 的总个数。

我们问：为什么 $S_{n}$ 这个函数（数H的个数）的“输出值”会服从高斯分布？

那么这个问题的设定是：

高维样本点 $\omega$ ： 一个 $n$ 维的向量，例如 $\omega =(H,T,H,H,\dotsc ,T)$ 。
$n$ 个独立函数 $X_{i}$ ： $X_{i}$ 是一个“投影”函数，它只看 $\omega$ 的第 $i$ 个维度。
- $X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1$
- $X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0$
- $X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1$
- …
求和函数 $S_{n}$ ：

$S_{n} (\omega )=\sum _{i=1}^{n} X_{i} (\omega )$
在这个例子中， $S_{n} (\omega )$ 就是简单地“计算 $\omega$ 序列中 H 的总个数”。

因此，我们的问题是：

为什么 $S_{n}$ 这个函数（“数H的个数”）的输出值的分布会是高斯分布？

那么分布其实就是看 $S_{n}$ 在映射时，哪个输出点“更拥挤”，我们来数一数：

$S_{n}$ 输出 $k = n$ (极端值):
$S_{n} (\omega )=n$ 意味着“H的个数为n”。
在 $2^{n}$ 个 $\omega$ 中，有几个满足？
只有 1 个： $\omega =(H,H,\dotsc ,H)$ 。
这需要 $n$ 个 $X_{i}$ 同时为1
$S_{n}$ 输出 $k = 0$ (极端值):
$S_{n} (\omega )=0$ 意味着“H的个数为0”。
只有 1 个： $\omega =(T,T,\dotsc ,T)$ 。
$S_{n}$ 输出 $k = n /2$ (中间值):
$S_{n} (\omega )=n/2$ 意味着“H的个数为 $n /2$ ”。
有多少个 $\omega$ 满足？
这等于“从 $n$ 个位置中选 $n /2$ 个位置放 H”。
数量是 $C (n, n /2)$ (组合数)。