关于随机变量的理解

最新推荐文章于 2024-04-15 11:05:27 发布

原创最新推荐文章于 2024-04-15 11:05:27 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#概率论

数学专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨概率论中的基础概念，包括样本空间、事件域和概率测度，阐述了概率空间的定义。接着，介绍了随机变量的定义，强调它是一个实值函数并且满足可测性。此外，提到了分布函数在理解随机变量中的作用。最后，简要提及了全概率公式和贝叶斯公式这两个重要的概率论定理。

一、随机变量

1.前言

对于任何一个数学概念的理解，我认为最重要的一步首先是理解其在数学上最标准的定义。当你要想把一件事情从逻辑上说得通时，第一步就是在给定双方都认可的情况下去阐述你的观点，好比辩论赛之所以正反双方都能够有自己的观点并相互矛盾，其实很大程度上在于双方对问题的定义出现了偏差。

为更加准确无误了理解概率论中最原始的定义，以下我将引用国外教材最原始的表达，避免二次翻译，只给出自己的理解。在给出随机变量的定义前，不可避免的需要介绍一些基本概念。

Definition 1. The set of all possible outcomes of an experiment is called the sample space and is denoted by $\Omega$ .
Definition 2. Events are subsets of $\Omega$ and it is false in converse, denoted by such as $A$ , $B$ .
Definition 3. The collection of events as a subcollection $\mathcal{F}$ of the set of all subsets of $\Omega$ .
(1) if $A_1,A_2,\dots\in\mathcal{F}$ then $\bigcup^{\infty}_{i=1}A_i\in \mathcal{F}$ ;
(2) if $A\in\mathcal{F}$ then $A^{c}\in\mathcal{F}$ ;
(3) the empty set $\emptyset$ belongs to $\mathcal{F}$ .
A collection $\mathcal{F}$ of subsets of $\Omega$ which satisfies these three conditions is called a field ( $\sigma$ -field)
Definition 4. A probability measure $\mathcal{P}$ on $(\Omega, \mathcal{F})$ is a function $\mathcal{P}:\mathcal{F} \rightarrow [0,1]$ satisfying
(a) $\mathcal{P}(\emptyset)=0$ , $\mathcal{P}(\Omega)=1;$
(b) if $A_1,A_2,\dots$ is a collection of disjoint members of $\mathcal{F}$ , in that $A_i\cap A_j=\emptyset \;\forall i,j$ satisfying $i\ne j,$ then
$\mathcal{P}\left(\bigcup_{i=1}^{\infty} A_{i}\right)=\sum_{i=1}^{\infty} \mathcal{P}\left(A_{i}\right)$
A probability measure is a special example of what is called a measure on the pair $(\Omega, \mathcal{F})$ . A measure is a function $\mu:\mathcal{F} \rightarrow [0,\infty]$ satisfying $\mu(\emptyset)=0$ together with (b) above. A measure is a probability measure if $\mu(\Omega)=1$ .

The triple $(\Omega, \mathcal{F}, \mathcal{P})$ , comprising a set $\Omega$ , a $\sigma$ -field $\mathcal{F}$ of subsets of $\Omega$ , and a probability measure $\mathcal{P}$ on $(\Omega, \mathcal{F})$ , is called a probability space.

以上介绍了概率论中概论空间的三要素 $(\Omega, \mathcal{F}, \mathcal{P})$ , 以下对各个部分做一些解释，不涉及测度论。

$\Omega -$ 样本空间，是包含所有可能试验结果的集合，样本元素 $\omega$ 两两互斥且被穷举。
$\mathcal{F} -$ 事件域，事件是样本空间的一个子集，反之，并不是所有样本空间的子集都是事件。事件域是样本空间一些子集的集合，其每一个元素是一个集合 (一个事件)，我们可以从定义中的符号 $\in$ (表示元素与集合关系的符号) 说明了事件域的元素是集合。我们仅考虑满足上述条件的事件域，即 $\sigma$ -field，最小的 $\sigma$ -field 是 $\mathcal{F}=\{\emptyset, \Omega\}$ 。
$\mathcal{P}-$ 概率测度，测度是概率论中一个很抽象的概念，只有满足上述条件的测度才被称之为概率测度，值得注意的是它是定义在事件域上的，而不是样本空间上的，表示了一次试验中包含在 $\mathcal{F}$ 中所有事件的可能性，是事件到实数集 $[0, 1]$ 之间的映射。
$\mathcal{F}$ 定义中的(2),(3)可以推导出 $\Omega \in \mathcal{F}$ ， $\mathcal{F}$ 与 $\mathcal{P}$ 的定义相对应，总言言之，测度或者说是概率测度只是在原有 $\mathcal{F}$ 上增加的一个人为限制，总测度为1，即是 $\mathcal{P}(\Omega)=1$ 。
将 $\mathcal{P}$ 定义在 $\mathcal{F}$ 上是非常容易理解的，我们需要得到是不同事件发生所对应的可能性。
Example. 掷一次骰子， $\Omega = \{1,2,3,4,5,6\}$ ，事件域 $\mathcal{F}=\{\emptyset,\{1\},\{2\},\{1,2\},\dots, \Omega\}$ ，假设事件 $A=\{1,2,3\}$ ，则 $\mathcal{P}(A)=\frac{|A|}{6}$ ， $∣ A ∣$ 是 $A$ 中所包含元素的个数。可以看出概率测度是定义在事件域上的。

2.定义

在介绍了概率空间之后，我们开始进入随机变量的理解。很多时候我们并不关心随机试验的一次结果本身，比如抛一次硬币结果正面朝上，诸如此类，相反我们更加关心试验随机结果出现的序列，比如抛一次硬币所出现的所有结果。

Definition 5. A random variable is a function $\Omega \rightarrow R$ with the property that $\{ \omega \in \Omega: X(\omega) \leq x\} \in \mathcal{F}$ for each $x\in R$ . Such a function is said to be $\mathcal{F}$ -measurable.

根据定义我们可以看到随机变量是人为引入的一个函数 (不是变量，特殊的函数)，跟概率测度不一样，这是它是实实在在定义在概率空间上函数，将 $\Omega$ 映射到实数集 $R$ 上；对于 $\mathcal{F}$ -measurable 可以理解为：对于任意实数，该随机变量不大于该实数的自变量取值包含在概率空间的事件域里，因此我们可以的得到随机变量两个要求：

一个随机变量是一个实值函数。
这个函数是可测的。
Example. 抛两次硬币， $\Omega = \{HH, HT, TH, TT\}$ ，事件域 $\mathcal{F}=\{\emptyset,\{HH\},\{TT\},\{HH,HT\},\dots, \Omega\}$ ，定义随机变量 $X(\omega)$ 表示H的次数，则 $X (H H) = 2, X (T H) = X (H T) = 1, X (T T) = 0$ 。上述 $X$ 满足实值函数且对于任意 $x$ ， $\leq x$ 的取值样本 $\omega \in \mathcal{F}$ (再次说明了 $\mathcal{F}$ 需要包含 $\emptyset$ 和 $\Omega$ )。可以看出随机变量是人为定义在样本空间上的实值可测函数。

3.相关概念

无论是离散型随机变量、连续型随机变量还是混合型随机变量，分布函数都是不可或缺的。

Definition 6. The distribution function of a random variable $X$ is the function $\rightarrow [0, 1]$ given by $F(x)=\mathcal{P}(X\leq x)$ .

可以看出分布函数或者说累积分布函数是实数集到 $[0, 1]$ 的映射，实际上在我们引入随机变量将概率空间映射到实数空间时，该空间是没有意义的，但当我们想知道某一个事件的概率时，那么就需要 $\mathcal{P}(X\leq x)$ 也就是分布函数再一次映射回来。

这里只是简单理解一下关于随机变量的定义，关于连续型随机变量的概率密度函数、联合分布、条件分布、随机向量、随机过程、复随机过程等没有做详细介绍，因为在我看来理解了最基础的定义，相关学习都是时间的问题，如果需要后续我将补充相关内容。

最后我想给出概率中两个非常重要且有意思的公式：全概率公式和贝叶斯公式。

Theorem 1. Law of total probability. Suppose that the events $B_1, \dots, B_k$ form a partition of the space $\Omega$ and $\mathcal{P}(B_j) > 0$ for $\dots, k$ . Then, for every event A in $\Omega$
$\mathcal{P}(A)=\mathcal{P}(A\cap\Omega)=\mathcal{P}(A\cap\bigcup_j{B_j})=\mathcal{P}(\bigcup_j{AB_j})=\sum_{j=1}^k\mathcal{P}(AB_j)=\sum_{j=1}^{k} \mathcal{P}\left(B_{j}\right) \mathcal{P}\left(A \mid B_{j}\right)$
Theorem 2. Law of Bayes. Let the events $B_1, \dots, B_k$ form a partition of the space $\Omega$ such that $\mathcal{P}(B_i )>0$ for $\dots, k$ and let $A$ be an event such that $\mathcal{P}(A)>0$ . Then, for $\dots, k$
$\mathcal{P}\left(B_{i} \mid A\right)=\frac{\mathcal{P}\left(B_{i}\right) \mathcal{P}\left(A \mid B_{i}\right)}{\sum_{j=1}^{k} \mathcal{P}\left(B_{j}\right) \mathcal{P}\left(A \mid B_{j}\right)}$