# 第2章 随机变量及概率分布
[TOC]
2.1 一维随机变量
2.1.1 随机变量的概念
随机变量就是“其值随机会而定”的变量。
用随机变量加限制的方法,可以表示一个事件。
按取值全体的性质,随机变量分为两大类:
- 离散型随机变量
- 连续型随机变量
“连续型随机变量”这个概念只是一个数学上的抽象。
2.1.2 离散型随机变量的分布及重要例子
设X为离散型随机变量,其全部可能值为 {a1,a2,⋯} ,则
pi=P(X+=ai)(i=1,2,⋯)称为X的概率函数。
设X为离散型随机变量,则函数
P(X≤x)=F(x)(−∞<x<∞)称为X的分布函数。
因此可知:
对于任何随机变量X,其分布函数F(x)具有以下一般性质:
1.F(x)是单调非降的。
2.当
x→∞
时,
F(x)→1
,当
x→−∞
时,
F(x)→0
。
下面是几个重要的离散型随机变量的例子:
- 二项分布:
已知A的概率p,X记为n次试验中A出现的次数。记为 X∼B(n,p)
二项分布有两个条件:一是各次试验的条件是稳定的,这保证了p不变。二是各次试验的独立性。
- 泊松分布:
当X表示在一段时间或空间内出现的事件个数。记为 X∼P(λ)
二项分布中,当n很大,p很小, np=λ 不太大时,X的这个二项分布接近于泊松分布 P(λ) 。因此有时可以用泊松分布来计算二项分布。
在设计到抽样的问题中常用。N个产品中有M个废品,以X记从N个产品中随机抽出n个里面所含有的废品数。
- 负二项分布:
一批产品废品率p。逐一抽取直到抽到r个废品,X记为此时合格品的个数。
- 几何分布:
负二项分布中,当抽到1个废品就停止,即令r=1。
2.1.3 连续型随机变量的分布及重要例子
设连续型随机变量X有概率分布函数F(x),则F(x)的导数 f(x)=F′(x) 称为X的概率密度函数。其具有以下三条性质:
1. f(x)≥0 ;
2. ∫∞−∞f(x)dx=1 ;
3.对任何常数 a<b 有:
重要的例子们有:
- 正态分布:
记为 X∼N(μ,σ2) ,关于 μ点对称,而后往两个方向衰减。
N(0,1) 称为标准正态分布,之所以重要,是因为可以用标准正态分布去计算正态分布。因为:
- 指数分布:
常用于寿命分布。X取的意义类似于“可以撑过多久”。这里并不考虑老化的问题,即失效率是不随x变化的。
- 威布尔分布:
常用于寿命分布。X取的意义类似于“可以撑过多久”。考虑老化的问题。 λ 与x有关。
要解下面的微分方程(以 λ=λxm 为例):
- 均匀分布:
2.2 多维随机变量(随机向量)
2.2.1 离散型随机向量的分布
设 X=(X1,X2,⋯,Xn) 为一个N维向量, X1,X2,⋯,Xn 都是一维随机变量,则称X是一个n维随机向量或n维随机变量。
以 {ai1,ai2,⋯} 记 Xi 的全部可能值, (i=1,2,⋯) ,则事件 {X1=a1j1,X2=a2j2,⋯,Xn=anjn} 的概率
p(j1,j2,⋯,jn)=P(X1=a1j1,X2=a2j2,⋯,Xn=anjn)>(j1=1,2,⋯;j2=1,2,⋯;⋯;jn=1,2,⋯;)>称为随机向量 X=(X1,X2,⋯,Xn) 的概率函数或概率分布,其应满足以下条件:
- 多项分布:
常用于将一堆事物分为几类,抽取,查看各类抽取若干个时的概率。假设的是各个事物的比率在抽取的过程中不变化。
当n=2时,就回到了二项分布的情形。
2.2.2 连续型随机向量的分布
设 X=(X1,X2,⋯,Xn) ,如果X的取值能够充满 Rn 中的某一区域,则称X是连续的。
若 f(x1,⋯,xn) 是定义在 Rn 上的非负函数,使对 Rn 上的任何集合A,有
P(X∈A)=∫⋯∫Af(x1,⋯,xn)dx1dx2⋯dxn则称f是X的(概率)密度函数。
- 二维正态分布
记为 N(a,b,σ21,σ22,ρ) 。
2.2.3 边缘分布
X=(X1,X2,⋯,Xn)
,
Xi
的分布称为X或X的分布的“边缘分布”。
设X的概率密度函数为
f(x1,⋯,xn)
,则
X1
的分布为:
N(a,b,σ21,σ22,ρ)
的边缘分布分别是
N(a,σ21)
和
N(b,σ22)
。
多项分布的边缘分布是二项分布。
但是即使知道了边缘分布,也不能确定联合分布,因为没有给出边缘分布之间的关系。以二维正态分布为例 ρ给出的就是两个边缘分布之间的关系。
2.3 条件概率分布与随机变量的独立性
2.3.1 条件概率分布的概念
一个随机变量或向量X的条件概率分布,就是在某种给定的条件下X的概率分布。
2.3.2 离散型随机变量的条件概率分布
与第1章中的概念及计算方法一样。
将联合概率分布记为:
则条件概率分布也可以写成:
多项分布在给定一项的条件时,另一项是二项分布。
2.3.3 连续型随机变量的条件分布
二维随机向量 X=(X1,X2) ,
正态变量的条件分布仍为正态。二维正态分布中, ρ>0称为“正相关”,ρ<0称为“负相关”。
2.3.4 随机变量的独立性
如果 f1(x1|x2) 不依赖于 x2 ,而只是 x1 的函数,就称 X1,X2 这两个随机变量(在概率论意义上)独立。此时:
f1(x1,x2)=f1(x1)f2(x2)
变量独立则事件独立,事件独立则变量独立。
若连续型随机向量 X=(X1,X2,⋯,Xn) 的概率密度函数 f(x1,⋯,xn) 可表为n个函数之积,即:
f(x1,⋯,xn)=g1(x1)⋯gn(xn)其中 gi 只依赖于 xi ,则 X=(X1,X2,⋯,Xn) 相互独立,且 Xi 的边缘密度函数 fi(xi) 与 gi(xi) 只相差一个常数因子。
2.4 随机变量的函数的概率分布
已知一些分布,通过函数关系去求另一些分布。
2.4.1 离散型分布的情况
关键是通过函数关系求出Y后,有没有相重的Y。相重的Y的概率要合并起来。
2.4.2 连续型分布的情况:一般讨论
设X有密度函数f(x),Y=g(X),g的反函数为X=h(Y)。g是严格上升的函数。则Y的密度函数为:
多维随机向量的情况:
由于做了变量替换,要注意取值范围。
2.4.3 随机变量和的密度函数
Y=X1+X2
两个正态分布的和也是正态分布。一个二维正态分布表成两个随机变量之和,随机变量也服从正态分布。
三大分布:
Γ函数:
- 自由度为n的皮尔逊卡方分布
χ2n
概率密度:
若
X1,X2,⋯,Xn
相互独立,都服从N(0,1),则
Y=X21+X22+⋯+X2n∼χ2n
性质:
1.设
X1,X2
独立,
X1∼χ2m,X2∼χ2n
,则
X1+X2∼χ2m+n
。
2.设
X1,X2,⋯,Xn
独立,都服从指数分布,则
X=2λ(X1+⋯+Xn)∼χ22n
。
2.4.4 随机变量的商的密度函数
设 X1,X2 有密度函数 f(x1,x2) , Y=X2/X1 ,则:
- 自由度n的t分布
tn
设 X1,X2 独立, X1∼χ2n,X2∼N(0,1) , Y=X2/X1/n−−−−−√ ,则Y服从自由度n的t分布:
- 自由度(m,n)的F分布
Fmn
设 X1,X2 独立, X1∼χ2n,X2∼χ2m , Y=m−1X2/n−1X1 ,则Y服从自由度(m,n)的F分布:
Γ2n,tn,Fmn 称为统计上的三大分布。
三大分布很重要主要是因为:
1.设
X1,X2,⋯,Xn
独立同分布,有公共的正态分布
N(μ,σ2)
,记
X¯=(X1+X2+⋯+Xn)/n
,
S2=∑ni=1(Xi−X¯)2/(n−1)
,则:
2.假设同1,则:
3.设 X1,X2,⋯,Xn 独立同分布, Y1,Y2,⋯,Ym 独立同分布, Xi∼N(μ1,σ21),Yi∼N(μ2,σ22) ,则:
若 σ21=σ22 ,则: