在上一节中,介绍了随机变量的分布函数以及概率密度函数,可以知道随机变量的统计规律性可以用其表示。但是在实际应用中,分布函数有时候是不容易求得的。此时便可根据随机变量的数字特征去概括一个分布。本章节就将围绕随机变量的数字特征进行介绍,包括常见的期望、方差/协方差,以及更加泛化的矩与矩母函数。
1 期望
1.1 期望
随机变量的期望值,本质上就是随机变量的均值,只不过此处的均值是概率加权的平局。就好比平均值被用来描述数据的中间值,随机变量的期望是该随机变量对应分布的中心。换句话说,期望是随机变量最具代表性的取值。
注意 期望与均值的辨析
上面类比均值对随机变量进行了介绍,但是两者是不同的概念。均值通常是指数据的均值,而期望特指随机变量的期望。此处需回顾随机变量的定义,即为样本空间到数的映射。进而可以将期望顾名思义地理解为样本空间最有代表性的事件,即“期望”的事件。
定义 随机变量 g ( X ) g(X) g(X)的期望或均值,记作 E ( g ( X ) ) E(g(X)) E(g(X)),定义为: E ( g ( X ) ) = { ∫ − ∞ + ∞ g ( x ) f X ( x ) d x , X 为 连 续 型 随 机 变 量 , ∑ x ∈ X g ( x ) f X ( x ) , X 为 离 散 型 随 机 变 量 , E(g(X)) = \begin{cases} \int_{-\infty}^{+\infty}g(x)f_{X}(x){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}g(x)f_{X}(x), X为离散型随机变量, \end{cases} E(g(X))=⎩⎨⎧∫−∞+∞g(x)fX(x)dx, X为连续型随机变量,x∈X∑g(x)fX(x), X为离散型随机变量,
注意
这里之所以用一个函数 g ( X ) g(X) g(X)表示随机变量,可能与其他地方看到的对期望的定义不太一致。但回顾第二章的第五节随机变量的变换,可以发现两种定义本质上一致。上述的定义方法糅合了定理“懒惰统计学家法则”在里面,此处略去推导。之所以在这里列出上面这种定义方式,因其更具普遍性且易于记忆。
例1.1 令
X
∼
B
e
r
n
o
u
l
l
i
(
p
)
X \sim {\rm Bernoulli}(p)
X∼Bernoulli(p),求
E
(
X
)
E(X)
E(X)。
E
(
X
)
=
∑
x
∈
{
0
,
1
}
x
f
X
(
x
)
=
0
×
(
1
−
p
)
+
p
=
p
\begin{aligned} E(X) & = \sum \limits_{x \in \{0,1\}}xf_{X}(x) \\ & =0 \times(1-p)+p \\ &=p \end{aligned}
E(X)=x∈{0,1}∑xfX(x)=0×(1−p)+p=p
例1.2 令X服从柯西分布,已知柯西分布的pdf:
f
X
(
x
)
=
1
π
(
1
+
x
2
)
f_{X}(x) = \frac{1}{\pi(1+x^{2})}
fX(x)=π(1+x2)1求
E
(
∣
X
∣
)
E(|X|)
E(∣X∣).
E
(
∣
X
∣
)
=
∫
∣
x
∣
f
X
(
x
)
d
x
,
=
∫
∣
x
∣
1
π
(
1
+
x
2
)
d
x
=
2
π
∫
0
+
∞
x
1
+
x
2
d
x
=
lim
M
→
+
∞
2
π
∫
0
M
x
1
+
x
2
d
x
=
lim
M
→
+
∞
2
π
(
1
2
log
(
1
+
x
2
)
∣
0
M
)
=
lim
M
→
+
∞
1
π
log
(
1
+
M
2
)
=
∞
\begin{aligned} E(|X|)& = \int |x|f_{X}(x){\rm d}x, \\ & =\int |x|\frac{1}{\pi(1+x^{2})}{\rm d}x \\ &=\frac{2}{\pi}\int_{0}^{+\infty} \frac{x}{1+x^{2}}{\rm d}x \\ &=\lim \limits_{M \rightarrow+\infty}\frac{2}{\pi}\int_{0}^{M} \frac{x}{1+x^{2}}{\rm d}x \\ &=\lim \limits_{M \rightarrow+\infty}\frac{2}{\pi} (\frac{1}{2}\log (1+x^{2})|_{0}^{M}) \\ &=\lim \limits_{M \rightarrow+\infty}\frac{1}{\pi} \log(1+M^{2})=\infty \end{aligned}
E(∣X∣)=∫∣x∣fX(x)dx,=∫∣x∣π(1+x2)1dx=π2∫0+∞1+x2xdx=M→+∞limπ2∫0M1+x2xdx=M→+∞limπ2(21log(1+x2)∣0M)=M→+∞limπ1log(1+M2)=∞上面柯西分布的
E
(
∣
X
∣
)
E(|X|)
E(∣X∣)是无穷值,故而我们认为柯西分布不存在期望。
通过上面求期望的过程以及期望的定义,不难得出关于期望计算的以下性质:
1.设X是随机变量,a,b,c为常数,
g
1
(
x
)
,
g
2
(
x
)
g_{1}(x),g_{2}(x)
g1(x),g2(x)是两个存在期望的函数,则:
E
(
a
g
1
(
X
)
+
b
g
2
(
x
)
+
c
)
=
a
E
(
g
1
(
x
)
)
+
b
E
(
g
2
(
x
)
)
+
c
E(ag_{1}(X)+bg_{2}(x)+c)=aE(g_{1}(x))+bE(g_{2}(x))+c
E(ag1(X)+bg2(x)+c)=aE(g1(x))+bE(g2(x))+c
2.如果
X
1
,
X
2
,
…
,
X
n
X_{1},X_{2},\dots,X_{n}
X1,X2,…,Xn为独立随机变量,
a
1
,
a
2
,
…
,
a
n
a_{1},a_{2},\dots,a_{n}
a1,a2,…,an为常数,则:
E
(
∑
i
a
i
X
i
)
=
∑
i
a
i
E
(
X
i
)
E(\sum \limits_{i}a_{i}X_{i})=\sum \limits_{i}a_{i}E(X_{i})
E(i∑aiXi)=i∑aiE(Xi)
3.如果
X
1
,
X
2
,
…
,
X
n
X_{1},X_{2},\dots,X_{n}
X1,X2,…,Xn为独立随机变量,则:
E
(
∏
i
X
i
)
=
∏
i
E
(
X
i
)
E(\prod \limits_{i}X_{i})=\prod \limits_{i}E(X_{i})
E(i∏Xi)=i∏E(Xi)
证明从略,提示:可先证明两个随机变量的情况,然后推广。
1.2 条件期望
对于随机变量X,Y,假设Y被观测,即Y=y,现要求X的期望。这就引出了条件期望,条件期望的定义与期望的定义类似,只不过将X的概率密度函数换成X对于Y的条件概率密度函数。定义为:
g
(
X
)
g(X)
g(X)在给定Y的条件下的条件期望记为
E
(
g
(
X
)
∣
Y
=
y
)
E(g(X)|Y=y)
E(g(X)∣Y=y),定义为:
E
(
g
(
X
)
)
=
{
∫
−
∞
+
∞
g
(
x
)
f
X
∣
Y
(
x
∣
y
)
d
x
,
X
为
连
续
型
随
机
变
量
,
∑
x
∈
X
g
(
x
)
f
X
∣
Y
(
x
∣
y
)
,
X
为
离
散
型
随
机
变
量
,
E(g(X)) = \begin{cases} \int_{-\infty}^{+\infty}g(x)f_{X|Y}(x|y){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}g(x)f_{X|Y}(x|y), X为离散型随机变量, \end{cases}
E(g(X))=⎩⎨⎧∫−∞+∞g(x)fX∣Y(x∣y)dx, X为连续型随机变量,x∈X∑g(x)fX∣Y(x∣y), X为离散型随机变量,
2 方差与协方差
本小节深入讨论方差与协方差,方差是单一随机变量地数字特征,协方差是多个随机变量之间地数字特征。
2.1 方差
方差度量随机变量X在期望
E
X
EX
EX附近集中程度地数字特征。方差的计算可能中学阶段就已经掌握,本小节将更深入地讨论方差。
定义
设随机变量X,若存在期望
E
(
X
−
E
(
X
)
)
2
E(X-E(X))^{2}
E(X−E(X))2,称其为X的方差,记为
V
a
r
(
X
)
Var(X)
Var(X),也记为
V
X
VX
VX。
V
X
=
E
(
X
−
E
(
X
)
)
2
\begin{aligned} VX = E(X-E(X))^{2} \end{aligned}
VX=E(X−E(X))2而标准差,记为sd(X),为:
s
d
(
X
)
=
V
a
r
(
X
)
sd(X)=\sqrt{Var(X)}
sd(X)=Var(X)
假设方差存在,具有如下的性质:
- V a r ( X ) = E ( X − E ( X ) ) 2 = E ( X 2 + E 2 ( X ) − 2 X E ( X ) ) = E ( X 2 ) + E 2 ( X ) − 2 E ( X ) E ( X ) = E ( X 2 ) − E 2 ( X ) \begin{aligned}Var(X)&= E(X-E(X))^{2} \\ & = E(X^{2}+E^{2}(X)-2XE(X)) \\ & = E(X^{2})+E^{2}(X)-2E(X)E(X) \\ &= E(X^{2})-E^{2}(X) \end{aligned} Var(X)=E(X−E(X))2=E(X2+E2(X)−2XE(X))=E(X2)+E2(X)−2E(X)E(X)=E(X2)−E2(X)
- V a r ( a X + b ) = E ( a X + b − E ( a X + b ) ) 2 = E ( a X + b − a E ( X ) − b ) 2 = a 2 E ( X − E ( X ) ) 2 = a 2 V a r ( X ) \begin{aligned}Var(aX+b)&= E(aX+b-E(aX+b))^{2}\\ &=E(aX+b-aE(X)-b)^{2} \\ & = a^{2}E(X-E(X))^{2}\\ &=a^{2}Var(X) \end{aligned} Var(aX+b)=E(aX+b−E(aX+b))2=E(aX+b−aE(X)−b)2=a2E(X−E(X))2=a2Var(X)
- 若X,Y独立,则:
V
a
r
(
X
+
Y
)
=
E
(
X
+
Y
−
E
(
X
+
Y
)
)
2
=
E
(
X
−
E
(
X
)
+
Y
−
E
(
Y
)
)
2
=
E
(
X
−
E
(
X
)
)
2
+
E
(
Y
−
E
(
Y
)
)
2
+
2
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
+
0
\begin{aligned}Var(X+Y)&= E(X+Y-E(X+Y))^{2}\\ &=E(X-E(X)+Y-E(Y))^{2} \\ & = E(X-E(X))^{2}+E(Y-E(Y))^{2}+2E((X-E(X))(Y-E(Y)))\\ &=Var(X)+Var(Y)+0 \end{aligned}
Var(X+Y)=E(X+Y−E(X+Y))2=E(X−E(X)+Y−E(Y))2=E(X−E(X))2+E(Y−E(Y))2+2E((X−E(X))(Y−E(Y)))=Var(X)+Var(Y)+0
其中 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = 0 E((X-E(X))(Y-E(Y)))=0 E((X−E(X))(Y−E(Y)))=0是因为X,Y相互独立。 E ( ( X − E ( X ) ) ( Y − E ( Y ) ) ) = E ( X Y + E ( X ) E ( Y ) − X E ( Y ) − Y E ( X ) ) = E ( X Y ) − E ( X ) E ( Y ) = 0 \begin{aligned} E((X-E(X))(Y-E(Y)))&=E(XY+E(X)E(Y)-XE(Y)-YE(X)) \\ &=E(XY)-E(X)E(Y)=0 \end{aligned} E((X−E(X))(Y−E(Y)))=E(XY+E(X)E(Y)−XE(Y)−YE(X))=E(XY)−E(X)E(Y)=0此处的推导使用了期望的性质。
推广:如果 X 1 , X 2 , … , X n X_{1},X_{2},\dots,X_{n} X1,X2,…,Xn为独立随机变量, a 1 , a 2 , … , a n a_{1},a_{2},\dots,a_{n} a1,a2,…,an为常数,则: V a r ( ∑ i a i X i ) = ∑ i a i 2 V a r ( X i ) Var(\sum \limits_{i}a_{i}X_{i})=\sum \limits_{i}a_{i}^{2}Var(X_{i}) Var(i∑aiXi)=i∑ai2Var(Xi)
2.2 协方差与相关系数
协方差
多维随机变量之间,不同维度必定会存在关联,比如:身高和体重等等。协方差就是衡量不同分布之间关系的一个数字特征。
定义: 对二维随机变量(X,Y),若
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
E((X-E(X))(Y-E(Y)))
E((X−E(X))(Y−E(Y)))存在,称其为X,Y的协方差,记为:
C
o
v
(
X
,
Y
)
=
E
(
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
)
Cov(X,Y)=E((X-E(X))(Y-E(Y)))
Cov(X,Y)=E((X−E(X))(Y−E(Y)))特别得
C
o
v
(
X
,
X
)
=
V
a
r
(
X
)
Cov(X,X)=Var(X)
Cov(X,X)=Var(X)
协方差与期望和方差一样又很多性质,此处不详细列举,读者可自行推导。
协方差矩阵
对二维随机变量(X,Y),定义
(
C
o
v
(
X
,
X
)
C
o
v
(
X
,
Y
)
C
o
v
(
Y
,
X
)
C
o
v
(
Y
,
Y
)
)
\left( \begin{matrix} {\rm C}ov(X,X) & {\rm C}ov(X,Y) \\ {\rm C}ov(Y,X) & {\rm C}ov(Y,Y) \end{matrix} \right)
(Cov(X,X)Cov(Y,X)Cov(X,Y)Cov(Y,Y))其协方差矩阵;
(
E
(
X
)
,
E
(
Y
)
)
(E(X),E(Y))
(E(X),E(Y))为均值向量。
一般地,对n维随机变量
(
X
1
,
X
2
,
…
,
X
n
)
(X_{1},X_{2},\dots,X_{n})
(X1,X2,…,Xn),定义:
(
C
o
v
(
X
1
,
X
1
)
C
o
v
(
X
1
,
X
2
)
…
C
o
v
(
X
1
,
X
n
)
C
o
v
(
X
2
,
X
1
)
C
o
v
(
X
2
,
X
2
)
…
C
o
v
(
X
2
,
X
n
)
⋮
⋮
⋱
⋮
C
o
v
(
X
n
,
X
1
)
C
o
v
(
X
n
,
X
2
)
…
C
o
v
(
X
n
,
X
n
)
)
\left( \begin{matrix} {\rm C}ov(X_{1},X_{1}) & {\rm C}ov(X_{1},X_{2}) & \dots & {\rm C}ov(X_{1},X_{n}) \\ {\rm C}ov(X_{2},X_{1}) & {\rm C}ov(X_{2},X_{2}) & \dots & {\rm C}ov(X_{2},X_{n}) \\ \vdots &\vdots& \ddots & \vdots \\ {\rm C}ov(X_{n},X_{1}) & {\rm C}ov(X_{n},X_{2}) & \dots & {\rm C}ov(X_{n},X_{n}) \\ \end{matrix} \right)
⎝⎜⎜⎜⎛Cov(X1,X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)⋮Cov(Xn,X2)……⋱…Cov(X1,Xn)Cov(X2,Xn)⋮Cov(Xn,Xn)⎠⎟⎟⎟⎞为其协方差矩阵,记为
Σ
\Sigma
Σ;
(
E
(
X
1
)
,
E
(
X
2
)
,
…
,
E
(
X
n
)
)
(E(X_{1}),E(X_{2}),\dots,E(X_{n}))
(E(X1),E(X2),…,E(Xn))
为其均值向量。
相关系数
用协方差来表示不同分布地相关性是存在问题的,因为其受量纲的影响,根据其定义可以发现其量纲为X,Y两者量纲相乘。比如随机变量X,Y表示身高(m)体重(kg),那么
C
o
v
(
X
,
Y
)
{\rm C}ov(X,Y)
Cov(X,Y)的单位为“m*kg”。为得到不同分布之间不受量纲限制的相关性的数字特征,就引出了相关系数。
定义:若随机变量X,Y的方差期望都存在,记
X
∗
=
X
−
E
(
X
)
V
a
r
(
X
)
Y
∗
=
Y
−
E
(
Y
)
V
a
r
(
Y
)
X^{*}=\frac{X-E(X)}{\sqrt{Var(X)}}\\ \\ Y^{*}=\frac{Y-E(Y)}{\sqrt{Var(Y)}}\\
X∗=Var(X)X−E(X) Y∗=Var(Y)Y−E(Y)则相关系数为:
R
(
X
,
Y
)
=
C
o
v
(
X
∗
,
Y
∗
)
=
C
o
v
(
X
,
Y
)
V
a
r
(
X
)
V
a
r
(
Y
)
R(X,Y)={\rm C}ov(X^{*},Y^{*})=\frac{{\rm C}ov(X,Y)}{Var(X)Var(Y)}
R(X,Y)=Cov(X∗,Y∗)=Var(X)Var(Y)Cov(X,Y)其中
X
∗
,
Y
∗
X^{*},Y^{*}
X∗,Y∗是对随便变量的标准化,所以相关系数可以理解为标准化后的协方差。相关系数的取值在
[
−
1
,
+
1
]
[-1,+1]
[−1,+1],当其取值为1时,称X,Y完全正线性相关,-1时为完全负线性相关,取值为0时相互独立。
3 矩与矩母函数
上面介绍的期望和方差都是一种矩,当期望方差无法使用的时候,就可以使用矩来描述一个分布。而矩母函数顾名思义是可以用来求矩的一种函数,但除了求解矩,矩母函数还有一些其他的非常好的性质。
3.1 矩
矩的定义如下:
对任意整数n,X的m阶矩(moment),记作
μ
n
′
\mu_{n}^{'}
μn′,定义为:
μ
n
′
=
E
(
X
n
)
.
\mu_{n}^{'}=E(X^{n}) .
μn′=E(Xn).
X的n阶中心矩记作
μ
n
\mu_{n}
μn,定义为:
μ
n
=
E
(
(
X
−
μ
)
n
)
\mu_{n}=E((X-\mu)^{n})
μn=E((X−μ)n)其中
μ
=
μ
1
′
=
E
(
X
)
\mu=\mu_{1}^{'}=E(X)
μ=μ1′=E(X)。
相对于期望、方差,矩这一名词更加陌生,其内在含义也难以直接理解。
对与一些常见的低阶矩,可以较为容易地理解:
一阶矩等价于期望;
二阶中心矩等价于方差;
三阶中心距与偏态系数有关;
偏态系数:
S
k
e
w
=
E
(
(
X
−
μ
)
3
)
σ
3
Skew=\frac{E((X-\mu)^{3})}{\sigma^{3}}
Skew=σ3E((X−μ)3)
四阶中心矩与峰态系数有关;
峰态系数:
K
u
r
t
=
E
(
(
X
−
μ
)
4
)
σ
4
Kurt=\frac{E((X-\mu)^{4})}{\sigma^{4}}
Kurt=σ4E((X−μ)4)
但对于高阶矩的理解,可以从“矩”的字面含义开始。所谓“矩”,即为画直角以及方形的尺。在这里有直的含义,在发散以下,有距离的意思。从距离的角度来看矩,矩即为随机变量到原点“距离”的期望,不过此处的“距离”可为负值。中心矩即为随机变量到样本空间平均点的“距离”的期望。高阶矩可以类比闵可夫斯基距离。虽然这样理解不准确,但是却可以借此理解高阶矩。
高阶矩地计算比较复杂,往往只使用四阶及其以下的矩。
3.2 矩母函数
矩母函数可以用来求随机变量的矩、确定概率分布等。
定义 X的矩母函数(或是拉普拉斯变换),记为
M
X
(
t
)
M_{X}(t)
MX(t)定义为:
M
X
(
t
)
=
E
(
e
t
X
)
M_{X}(t)=E(e^{tX})
MX(t)=E(etX)其中t为实数,如果矩母函数在0的任意领域内该期望不存在,则称矩母函数不存在。
矩母函数可以进一步表示为:
M
X
(
t
)
=
{
∫
−
∞
+
∞
e
t
x
f
X
(
x
)
d
x
,
X
为
连
续
型
随
机
变
量
,
∑
x
∈
X
e
t
x
f
X
(
x
)
,
X
为
离
散
型
随
机
变
量
,
M_{X}(t)=\begin{cases} \int_{-\infty}^{+\infty}e^{tx}f_{X}(x){\rm d}x, X为连续型随机变量,\\ \sum \limits_{x \in \mathcal{X}}e^{tx}f_{X}(x), X为离散型随机变量, \end{cases}
MX(t)=⎩⎨⎧∫−∞+∞etxfX(x)dx, X为连续型随机变量,x∈X∑etxfX(x), X为离散型随机变量,
通过矩母函数求矩的定理如下:
若矩母函数存在,X的n阶矩等于
M
X
(
t
)
M_{X}(t)
MX(t)在t=0处的n阶导数。
证明:
d
d
t
M
X
(
t
)
∣
t
=
0
=
d
d
t
∫
−
∞
+
∞
e
t
x
f
X
(
x
)
d
x
∣
t
=
0
=
∫
−
∞
+
∞
d
d
t
e
t
x
f
X
(
x
)
d
x
∣
t
=
0
=
E
(
X
e
t
X
)
∣
t
=
0
=
E
(
X
)
\begin{aligned} \frac{{\rm d}}{{\rm d}t}M_{X}(t)|_{t=0}&=\frac{{\rm d}}{{\rm d}t}\int_{-\infty}^{+\infty}e^{tx}f_{X}(x){\rm d}x|_{t=0}\\ &=\int_{-\infty}^{+\infty}\frac{{\rm d}}{{\rm d}t}e^{tx}f_{X}(x){\rm d}x|_{t=0} \\ &=E(Xe^{tX})|_{t=0}=E(X) \end{aligned}
dtdMX(t)∣t=0=dtd∫−∞+∞etxfX(x)dx∣t=0=∫−∞+∞dtdetxfX(x)dx∣t=0=E(XetX)∣t=0=E(X)则:
d
n
t
n
M
X
(
t
)
∣
t
=
0
=
E
(
X
n
)
\frac{{\rm d^{n}}}{t^{n}}M_{X}(t)|_{t=0}=E(X^{n})
tndnMX(t)∣t=0=E(Xn)
若随机变量X,Y的矩母函数都存在,并且对0的领域内的任意t都存在
M
X
(
t
)
=
M
Y
(
t
)
M_{X}(t)=M_{Y}(t)
MX(t)=MY(t),则对任意
u
u
u有
F
X
(
u
)
=
F
Y
(
u
)
F_{X}(u)=F_{Y}(u)
FX(u)=FY(u).
换句话说就是,若存在矩母函数,则概率分布被唯一确认。证明从略。
分布 | 矩母函数 |
---|---|
B e r n o u l l i ( p ) {\rm Bernoulli}(p) Bernoulli(p) | p e t + 1 − p pe^{t}+1-p pet+1−p |
B i n o m i a l ( n , p ) {\rm Binomial}(n,p) Binomial(n,p) | ( p e t + 1 − p ) n (pe^{t}+1-p)^{n} (pet+1−p)n |
P o i s s o n ( λ ) {\rm Poisson}(\lambda) Poisson(λ) | e λ ( e t − 1 ) e^{\lambda (e^{t}-1)} eλ(et−1) |
N o r m a l ( μ , σ ) {\rm Normal}(\mu,\sigma) Normal(μ,σ) | e μ t + σ 2 t 2 2 e^{\mu t+\frac{\sigma^{2}t^{2}}{2}} eμt+2σ2t2 |