一、随机变量
1.前言
对于任何一个数学概念的理解,我认为最重要的一步首先是理解其在数学上最标准的定义。当你要想把一件事情从逻辑上说得通时,第一步就是在给定双方都认可的情况下去阐述你的观点,好比辩论赛之所以正反双方都能够有自己的观点并相互矛盾,其实很大程度上在于双方对问题的定义出现了偏差。
为更加准确无误了理解概率论中最原始的定义,以下我将引用国外教材最原始的表达,避免二次翻译,只给出自己的理解。在给出随机变量的定义前,不可避免的需要介绍一些基本概念。
- Definition 1. The set of all possible outcomes of an experiment is called the sample space and is denoted by Ω \Omega Ω.
- Definition 2. Events are subsets of Ω \Omega Ω and it is false in converse, denoted by such as A A A, B B B.
- Definition 3. The collection of events as a subcollection
F
\mathcal{F}
F of the set of all subsets of
Ω
\Omega
Ω.
(1) if A 1 , A 2 , ⋯ ∈ F A_1,A_2,\dots\in\mathcal{F} A1,A2,⋯∈F then ⋃ i = 1 ∞ A i ∈ F \bigcup^{\infty}_{i=1}A_i\in \mathcal{F} ⋃i=1∞Ai∈F;
(2) if A ∈ F A\in\mathcal{F} A∈F then A c ∈ F A^{c}\in\mathcal{F} Ac∈F;
(3) the empty set ∅ \emptyset ∅ belongs to F \mathcal{F} F.
A collection F \mathcal{F} F of subsets of Ω \Omega Ω which satisfies these three conditions is called a field ( σ \sigma σ-field) - Definition 4. A probability measure
P
\mathcal{P}
P on
(
Ω
,
F
)
(\Omega, \mathcal{F})
(Ω,F) is a function
P
:
F
→
[
0
,
1
]
\mathcal{P}:\mathcal{F} \rightarrow [0,1]
P:F→[0,1] satisfying
(a) P ( ∅ ) = 0 \mathcal{P}(\emptyset)=0 P(∅)=0, P ( Ω ) = 1 ; \mathcal{P}(\Omega)=1; P(Ω)=1;
(b) if A 1 , A 2 , … A_1,A_2,\dots A1,A2,… is a collection of disjoint members of F \mathcal{F} F, in that A i ∩ A j = ∅ ∀ i , j A_i\cap A_j=\emptyset \;\forall i,j Ai∩Aj=∅∀i,j satisfying i ≠ j , i\ne j, i=j, then
P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \mathcal{P}\left(\bigcup_{i=1}^{\infty} A_{i}\right)=\sum_{i=1}^{\infty} \mathcal{P}\left(A_{i}\right) P(i=1⋃∞Ai)=i=1∑∞P(Ai)
A probability measure is a special example of what is called a measure on the pair ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F). A measure is a function μ : F → [ 0 , ∞ ] \mu:\mathcal{F} \rightarrow [0,\infty] μ:F→[0,∞] satisfying μ ( ∅ ) = 0 \mu(\emptyset)=0 μ(∅)=0 together with (b) above. A measure is a probability measure if μ ( Ω ) = 1 \mu(\Omega)=1 μ(Ω)=1.
The triple ( Ω , F , P ) (\Omega, \mathcal{F}, \mathcal{P}) (Ω,F,P), comprising a set Ω \Omega Ω, a σ \sigma σ-field F \mathcal{F} F of subsets of Ω \Omega Ω, and a probability measure P \mathcal{P} P on ( Ω , F ) (\Omega, \mathcal{F}) (Ω,F), is called a probability space.
以上介绍了概率论中概论空间的三要素 ( Ω , F , P ) (\Omega, \mathcal{F}, \mathcal{P}) (Ω,F,P), 以下对各个部分做一些解释,不涉及测度论。
- Ω − \Omega - Ω− 样本空间,是包含所有可能试验结果的集合,样本元素 ω \omega ω 两两互斥且被穷举。
- F − \mathcal{F} - F− 事件域,事件是样本空间的一个子集,反之,并不是所有样本空间的子集都是事件。事件域是样本空间一些子集的集合,其每一个元素是一个集合 (一个事件),我们可以从定义中的符号 ∈ \in ∈ (表示元素与集合关系的符号) 说明了事件域的元素是集合。我们仅考虑满足上述条件的事件域,即 σ \sigma σ-field,最小的 σ \sigma σ-field 是 F = { ∅ , Ω } \mathcal{F}=\{\emptyset, \Omega\} F={∅,Ω}。
- P − \mathcal{P}- P−概率测度,测度是概率论中一个很抽象的概念,只有满足上述条件的测度才被称之为概率测度,值得注意的是它是定义在事件域上的,而不是样本空间上的,表示了一次试验中包含在 F \mathcal{F} F 中所有事件的可能性,是事件到实数集 [ 0 , 1 ] [0,1] [0,1] 之间的映射。
- F \mathcal{F} F 定义中的(2),(3)可以推导出 Ω ∈ F \Omega \in \mathcal{F} Ω∈F, F \mathcal{F} F 与 P \mathcal{P} P 的定义相对应,总言言之,测度或者说是概率测度只是在原有 F \mathcal{F} F 上增加的一个人为限制,总测度为1,即是 P ( Ω ) = 1 \mathcal{P}(\Omega)=1 P(Ω)=1。
- 将
P
\mathcal{P}
P 定义在
F
\mathcal{F}
F 上是非常容易理解的,我们需要得到是不同事件发生所对应的可能性。
Example. 掷一次骰子, Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6},事件域 F = { ∅ , { 1 } , { 2 } , { 1 , 2 } , … , Ω } \mathcal{F}=\{\emptyset,\{1\},\{2\},\{1,2\},\dots, \Omega\} F={∅,{1},{2},{1,2},…,Ω},假设事件 A = { 1 , 2 , 3 } A=\{1,2,3\} A={1,2,3},则 P ( A ) = ∣ A ∣ 6 \mathcal{P}(A)=\frac{|A|}{6} P(A)=6∣A∣, ∣ A ∣ |A| ∣A∣ 是 A A A 中所包含元素的个数。可以看出概率测度是定义在事件域上的。
2.定义
在介绍了概率空间之后,我们开始进入随机变量的理解。很多时候我们并不关心随机试验的一次结果本身,比如抛一次硬币结果正面朝上,诸如此类,相反我们更加关心试验随机结果出现的序列,比如抛一次硬币所出现的所有结果。
- Definition 5. A random variable is a function X : Ω → R X: \Omega \rightarrow R X:Ω→R with the property that { ω ∈ Ω : X ( ω ) ≤ x } ∈ F \{ \omega \in \Omega: X(\omega) \leq x\} \in \mathcal{F} {ω∈Ω:X(ω)≤x}∈F for each x ∈ R x\in R x∈R. Such a function is said to be F \mathcal{F} F-measurable.
根据定义我们可以看到随机变量是人为引入的一个函数 (不是变量,特殊的函数),跟概率测度不一样,这是它是实实在在定义在概率空间上函数,将 Ω \Omega Ω 映射到实数集 R R R 上;对于 F \mathcal{F} F-measurable 可以理解为:对于任意实数,该随机变量不大于该实数的自变量取值包含在概率空间的事件域里,因此我们可以的得到随机变量两个要求:
- 一个随机变量是一个实值函数。
- 这个函数是可测的。
Example. 抛两次硬币, Ω = { H H , H T , T H , T T } \Omega = \{HH, HT, TH, TT\} Ω={HH,HT,TH,TT},事件域 F = { ∅ , { H H } , { T T } , { H H , H T } , … , Ω } \mathcal{F}=\{\emptyset,\{HH\},\{TT\},\{HH,HT\},\dots, \Omega\} F={∅,{HH},{TT},{HH,HT},…,Ω},定义随机变量 X ( ω ) X(\omega) X(ω) 表示H的次数,则 X ( H H ) = 2 , X ( T H ) = X ( H T ) = 1 , X ( T T ) = 0 X(HH)=2,X(TH)=X(HT)=1,X(TT)=0 X(HH)=2,X(TH)=X(HT)=1,X(TT)=0 。上述 X X X 满足实值函数且对于任意 x x x, X ≤ x X \leq x X≤x 的取值样本 ω ∈ F \omega \in \mathcal{F} ω∈F (再次说明了 F \mathcal{F} F 需要包含 ∅ \emptyset ∅ 和 Ω \Omega Ω )。可以看出随机变量是人为定义在样本空间上的实值可测函数。
3.相关概念
无论是离散型随机变量、连续型随机变量还是混合型随机变量,分布函数都是不可或缺的。
- Definition 6. The distribution function of a random variable X X X is the function F : R → [ 0 , 1 ] F: R \rightarrow [0, 1] F:R→[0,1] given by F ( x ) = P ( X ≤ x ) F(x)=\mathcal{P}(X\leq x) F(x)=P(X≤x).
可以看出分布函数或者说累积分布函数是实数集到 [ 0 , 1 ] [0,1] [0,1] 的映射,实际上在我们引入随机变量将概率空间映射到实数空间时,该空间是没有意义的,但当我们想知道某一个事件的概率时,那么就需要 P ( X ≤ x ) \mathcal{P}(X\leq x) P(X≤x) 也就是分布函数再一次映射回来。
这里只是简单理解一下关于随机变量的定义,关于连续型随机变量的概率密度函数、联合分布、条件分布、随机向量、随机过程、复随机过程等没有做详细介绍,因为在我看来理解了最基础的定义,相关学习都是时间的问题,如果需要后续我将补充相关内容。
最后我想给出概率中两个非常重要且有意思的公式:全概率公式和贝叶斯公式。
- Theorem 1. Law of total probability. Suppose that the events
B
1
,
…
,
B
k
B_1, \dots, B_k
B1,…,Bk form a partition of the space
Ω
\Omega
Ω and
P
(
B
j
)
>
0
\mathcal{P}(B_j) > 0
P(Bj)>0 for
j
=
1
,
…
,
k
j = 1, \dots, k
j=1,…,k. Then, for every event A in
Ω
\Omega
Ω
P ( A ) = P ( A ∩ Ω ) = P ( A ∩ ⋃ j B j ) = P ( ⋃ j A B j ) = ∑ j = 1 k P ( A B j ) = ∑ j = 1 k P ( B j ) P ( A ∣ B j ) \mathcal{P}(A)=\mathcal{P}(A\cap\Omega)=\mathcal{P}(A\cap\bigcup_j{B_j})=\mathcal{P}(\bigcup_j{AB_j})=\sum_{j=1}^k\mathcal{P}(AB_j)=\sum_{j=1}^{k} \mathcal{P}\left(B_{j}\right) \mathcal{P}\left(A \mid B_{j}\right) P(A)=P(A∩Ω)=P(A∩j⋃Bj)=P(j⋃ABj)=j=1∑kP(ABj)=j=1∑kP(Bj)P(A∣Bj) - Theorem 2. Law of Bayes. Let the events
B
1
,
…
,
B
k
B_1, \dots, B_k
B1,…,Bk form a partition of the space
Ω
\Omega
Ω such that
P
(
B
i
)
>
0
\mathcal{P}(B_i )>0
P(Bi)>0 for
j
=
1
,
…
,
k
j=1, \dots, k
j=1,…,k and let
A
A
A be an event such that
P
(
A
)
>
0
\mathcal{P}(A)>0
P(A)>0. Then, for
i
=
1
,
…
,
k
i=1, \dots, k
i=1,…,k
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 k P ( B j ) P ( A ∣ B j ) \mathcal{P}\left(B_{i} \mid A\right)=\frac{\mathcal{P}\left(B_{i}\right) \mathcal{P}\left(A \mid B_{i}\right)}{\sum_{j=1}^{k} \mathcal{P}\left(B_{j}\right) \mathcal{P}\left(A \mid B_{j}\right)} P(Bi∣A)=∑j=1kP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)