2.1 随机变量
随机变量:对样本空间里的所有试验结果,都关联着一个特定的数。这种试验结果与数的对应关系形成一个随机变量。将试验结果所对应的数称为随机变量的取值。随机变量是试验结果的一个实值函数。
离散随机变量:随机变量的值域为有限集合或可数无限集合,如{-1, 0, 1}
连续随机变量:随机变量的值域为不可数无限集合,如[-1, 1]上的一个点
2.2 分布列
分布列:离散随机变量的取值概率, pxpxpx表示随机变量X的分布列,即
pX(x)=P({X=x}) (可简写为P(X=x))p_X(x) = P(\{X=x\}) \;\;\;\;\; (可简写为P(X=x) ) pX(x)=P({X=x})(可简写为P(X=x))
(一般用大写字母如X表示随机变量,小写字母如x表示随机变量的取值)
∑xpX(x)=1\sum_x p_X(x)=1x∑pX(x)=1
P(X∈S)=∑x∈SpX(x)P(X\in S)=\sum_{x\in S} p_X(x)P(X∈S)=x∈S∑pX(x)
考虑抛掷硬币的试验,每次抛掷硬币,正面朝上的概率为p, 反面朝上的概率为1-p, 接下来考虑与之联系的随机变量:
2.2.1 伯努利随机变量
伯努利随机变量(与试验结果相映射)
X={1正面朝上0反面朝上
X=
\begin{cases}
1& \text{正面朝上}\\
0& \text{反面朝上}
\end{cases}
X={10正面朝上反面朝上
其分布列(与随机变量相映射)
pX(k)={pk=11−pk=0
p_X(k)=
\begin{cases}
p& \text{k=1}\\
1-p& \text{k=0}
\end{cases}
pX(k)={p1−pk=1k=0
注:这里有两个函数:试验结果–>随机变量; 随机变量–>分布列
2.2.2 二项随机变量
二项随机变量X:n次抛掷得到正面的次数,其参数为n和p
X的分布列 — — 二项概率:
pX(k)=P(X=k)=(nk)pk(1−p)n−k, k=0,1,2,...,n
p_X(k)=P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix} p^k(1-p)^{n-k}, \;k=0, 1, 2,...,n
pX(k)=P(X=k)=(nk)pk(1−p)n−k,k=0,1,2,...,n
2.2.3 几何随机变量
几何随机变量X: 连续抛掷一枚硬币,直到第一次出现正面所需要抛掷的次数
其分布列为:
pX(x)=(1−p)k−1p, k=1,2,...
p_X(x) = (1-p)^{k-1}p, \;\; k=1,2,...
pX(x)=(1−p)k−1p,k=1,2,...
2.2.4 泊松随机变量
泊松随机变量的分布列:
pX(k)=e−λλkk!, k=0,1,2,...
p_X(k)=e^{-\lambda}\frac{\lambda^k}{k! } ,\;\; k=0,1,2,...
pX(k)=e−λk!λk,k=0,1,2,...
泊松随机变量是二项随机变量的逼近
其中λ=np\lambda=npλ=np且n很大,p很小
例如,n=100, p=0.01,用二项随机变量计算成功次数k=5的概率:
100!95!5!⋅0.015(1−0.01)95=0.00290
\frac{100!}{95!5!}\cdot0.01^5(1-0.01)^{95}=0.00290
95!5!100!⋅0.015(1−0.01)95=0.00290
利用泊松随机变量计算这个概率的近似值:
e−115!=0.00306(λ=np=100⋅0.01)
e^-1 \frac{1}{5!} = 0.00306 (\lambda=np=100 \cdot 0.01)
e−15!1=0.00306(λ=np=100⋅0.01)
2.3 随机变量的函数
X,YX, YX,Y是离散随机变量,Y=g(X)Y=g(X)Y=g(X)是XXX的函数,YYY的分布列可通过XXX的分布列计算得出
pY(y)=∑{x∣g(x)=y}pX(x)
p_Y(y)=\sum_{\{x|g(x)=y\}}p_X(x)
pY(y)={x∣g(x)=y}∑pX(x)
2.4 期望,均值和方差
设随机变量XXX,其分布列为pXp_XpX,其:
期望/均值: E[X]=∑xxpX(x)E[X]= \sum_{x}xp_X(x)E[X]=x∑xpX(x)
二阶矩(n阶矩):
E[X2],E[Xn]E[X^2], E[X^n]E[X2],E[Xn]
E[Xn]=∑xxnpX(x)E[X^n] = \sum_xx^np_X(x)E[Xn]=x∑xnpX(x)
方差:
var(X)=E[(X−E[X])2]var(X)=∑x(x−E[X])2pX(x)
var(X)=E[(X-E[X])^2] \\
var(X)=\sum_x(x-E[X])^2p_X(x)
var(X)=E[(X−E[X])2]var(X)=x∑(x−E[X])2pX(x)
标准差:σX=var(X)\sigma_X=\sqrt{var(X)}σX=var(X)
理解:
- 期望:X的所有取值相对于它的概率的加权平均,可类比于质量分布的重心
- 方差和标准差衡量了X在期望周围的分散程度,方差越大,X越分散
- 方差只能是非负,标准差可以为负
计算随机变量函数的期望
X,Y=g(X)X, Y=g(X)X,Y=g(X)是随机变量,XXX的分布列为pXp_XpX,则YYY的期望可如下得到:
E[Y]=∑xg(x)pX(x)E[Y]=\sum_xg(x)p_X(x) E[Y]=x∑g(x)pX(x)
若Y=aX+bY = aX + bY=aX+b,则a, b为常数
E[Y]=aE[X]+b−var(Y)=a2var(X)
E[Y] =aE[X]+b\\-\\
var(Y)=a^2var(X)E[Y]=aE[X]+b−var(Y)=a2var(X)
也即Y=g(X)Y=g(X)Y=g(X)是线性函数时,E[g(X)]=g(E[X])E[g(X)]=g(E[X])E[g(X)]=g(E[X])
注:除非g(X)g(X)g(X)是线性函数, 一般情况下E[g(X)]≠g(E[X])E[g(X)]\neq g(E[X])E[g(X)]=g(E[X])
例2.4(P77)平均时间与平均速度
pT(t)={0.6t=2/50.4t=2/30
p_T(t)=
\begin{cases}
0.6& t=2/5 \\
0.4& t=2/30
\end{cases}
pT(t)={0.60.4t=2/5t=2/30
E[T]=0.6=⋅25+0.4⋅230=415E[T]=0.6=\cdot \frac{2}{5}+0.4\cdot \frac{2}{30}=\frac{4}{15}E[T]=0.6=⋅52+0.4⋅302=154
pV(v)={0.6v=50.4v=30
p_V(v)=
\begin{cases}
0.6& v=5 \\
0.4& v=30
\end{cases}
pV(v)={0.60.4v=5v=30
E[V]=0.6=⋅5+0.4⋅30=15E[V]=0.6=\cdot 5+0.4\cdot 30=15E[V]=0.6=⋅5+0.4⋅30=15
T=2VT=\frac{2}{V}T=V2,然而,E[T]=E[2V]≠2E[V]E[T]=E[\frac{2}{V}]\neq\frac{2}{E[V]}E[T]=E[V2]=E[V]2
常用的随机变量的均值与方差
伯努利随机变量
分布列pX(x)={pk=11−pk=0p_X(x)=\begin{cases}
p& k=1 \\
1-p& k=0
\end{cases}pX(x)={p1−pk=1k=0
均值E(X)=pE(X)=pE(X)=p
二阶矩E[X2]=pE[X^2]=pE[X2]=p
方差var[X]=p(1−p)var[X]=p(1-p)var[X]=p(1−p)
离散均匀随机变量
分布列pX(x)={1b−a+1k=a,a+1,...,b0其他p_X(x)=\begin{cases}
\frac{1}{b-a+1}& k=a,a+1,...,b \\
0& 其他
\end{cases}pX(x)={b−a+110k=a,a+1,...,b其他
均值E(X)=a+b2E(X)=\frac{a+b}{2}E(X)=2a+b
二阶矩E[X2]=16(n+1)(2n+1)E[X^2]=\frac{1}{6}(n+1)(2n+1)E[X2]=61(n+1)(2n+1)
方差var[X]=n2−112var[X]=\frac{n^2-1}{12}var[X]=12n2−1
泊松随机变量
均值E(X)=λE(X)=\lambdaE(X)=λ
方差var[X]=λvar[X]=\lambdavar[X]=λ
2.5 多个随机变量的联合分布列
在同一个试验中有两个随机变量X,YX, YX,Y, 其取值概率可由联合分布列表示:
pX,Y(x,y)=P({X=x}∩{Y=y})简写为P(X=x,Y=y)
p_{X,Y}(x, y)=P(\{X=x\}\cap\{Y=y\}) \\
简写为 P(X=x, Y=y)
pX,Y(x,y)=P({X=x}∩{Y=y})简写为P(X=x,Y=y)
联合分布列与边缘分布列(称pX,pYp_X, p_YpX,pY为边缘分布列):
pX(x)=∑ypX,Y(x,y)pY(y)=∑xpX,Y(x,y)
p_X(x)=\sum_yp_{X,Y}(x,y)\\
p_Y(y)=\sum_xp_{X,Y}(x,y)
pX(x)=y∑pX,Y(x,y)pY(y)=x∑pX,Y(x,y)
多个随机变量的分布列
三个随机变量X,Y,ZX, Y, ZX,Y,Z的分布列:
pX,Y,Z(x,y,z)=P(X=x,Y=y,Z=z)p_{X,Y,Z}(x,y,z)=P(X=x,Y=y,Z=z)pX,Y,Z(x,y,z)=P(X=x,Y=y,Z=z)
边缘分布列:
pX,Y=∑zpX,Y,Z(x,y,z)p_{X,Y}=\sum_zp_{X,Y,Z}(x,y,z)pX,Y=z∑pX,Y,Z(x,y,z)
pX=∑y∑zpX,Y,Z(x,y,z)p_X=\sum_y\sum_z p_{X,Y,Z}(x, y,z)pX=y∑z∑pX,Y,Z(x,y,z)
多个随机变量的函数
两个随机变量构造新的随机变量,如:Z=g(X,Y)Z=g(X, Y)Z=g(X,Y)
- 分布列为:
pZ(z)=∑{(x,y)∣g(x,y)=z}pX,Y(x,y) p_Z(z)=\sum_{\{(x,y)|g(x,y)=z\}}p_{X,Y}(x,y) pZ(z)={(x,y)∣g(x,y)=z}∑pX,Y(x,y) - 期望为:
E[g(X,Y)]=∑x∑yg(x,y)pX,Y(x,y) E[g(X, Y)]=\sum_x\sum_yg(x,y)p_{X,Y}(x,y) E[g(X,Y)]=x∑y∑g(x,y)pX,Y(x,y) - 当函数是线性函数时,E[g(X,Y)]=g(E[X],E[Y])E[g(X, Y)]=g(E[X], E[Y])E[g(X,Y)]=g(E[X],E[Y])
如E[aX+bY+c]=aE[X]+bE[Y]+cE[aX+bY+c]=aE[X]+bE[Y]+cE[aX+bY+c]=aE[X]+bE[Y]+c
三个随机变量构造新的随机变量:U=g(X,Y,Z)U=g(X,Y,Z)U=g(X,Y,Z)
- 分布列为:
pU(u)=∑{(x,y,z)∣g(x,y,z)=u}pX,Y,Z(x,y,z)p_U(u)=\sum_{\{(x,y,z)|g(x,y,z)=u\}}p_{X,Y,Z}(x,y,z)pU(u)={(x,y,z)∣g(x,y,z)=u}∑pX,Y,Z(x,y,z) - 期望:
E[g(X,Y,Z)]=∑x∑y∑zg(x,y,z)pX,Y,Z(x,y,z)E[g(X,Y,Z)]=\sum_x\sum_y\sum_z g(x,y,z)p_{X,Y,Z}(x,y,z)E[g(X,Y,Z)]=x∑y∑z∑g(x,y,z)pX,Y,Z(x,y,z) - 函数是线性函数时:
E[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+dE[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+dE[aX+bY+cZ+d]=aE[X]+bE[Y]+cE[Z]+d
多于三个的随机变量依次类推