随机变量是可以随机的取不同值的变量。就其本身来讲,一个随机变量只是对可能状态的描述;它必须伴随一个概率分布来指定每个状态的可能性。随机变量可以是连续的或者离散的,离散随机变量拥有有限或者可数无限多的状态。注意这些状态并非一定是整数,它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。
概率分布用来描述随机变量或者一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是连续的还是离散的。
1.离散型变量和概率质量函数
离散型随机变量的概率分布可以用概率质量函数(probability mass function,PMF)描述,同常用P来表示。
PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
PMF可以同时作用于多个随机变量,这种多个变量的概率分布被称为联合概率分布。P(x=x,y=y)P\left ( \mathrm{x}=x,\mathrm{y}=y \right )P(x=x,y=y)表示x=x\mathrm{x}=xx=x和y=y\mathrm{y}=yy=y同时发生的概率。我们也可以简写为P(x,y)P\left ( x,y \right )P(x,y)。
如果一个函数P是随机变量x\mathrm{x}x的PMF,那么必须满足下面三个条件:
- P的定义域必须是x\mathrm{x}x所有可能状态的集合。
- ∀x∈x,0⩽P(x)⩽1\forall x\in \mathrm{x},0\leqslant P(x)\leqslant 1∀x∈x,0⩽P(x)⩽1。不可能发生的事件概率为0,并且不存在比这概率更低的情况;一定发生的事件概率为1,并且不存在比这概率更高的情况。
- ∑x∈xP(x)=1\sum_{x\in \mathrm{x}}P(x)=1∑x∈xP(x)=1,我们把这条性质称之为归一化。
2.连续型变量和概率密度函数
连续型随机变量的概率分布可以用概率密度函数(probability density function,PDF)描述,可以用p表示。
如果一个函数是概率密度函数,那么它必须满足下列三个条件:
- p的定义域必须是x\mathrm{x}x所有可能状态的集合。
- ∀x∈x,0⩽p(x)\forall x\in \mathrm{x},0\leqslant p(x)∀x∈x,0⩽p(x)。注意,并不要求p(x)⩽1p(x)\leqslant 1p(x)⩽1。
- ∫p(x)dx=1\int p(x)dx=1∫p(x)dx=1。
我们可以对概率密度函数求积分来获得点集的真实概率质量。特别的,xxx落在集合S\mathbb{S}S中的概率可以过p(x)p(x)p(x)对这个集合求积分得到。在单变量的例子中,xxx落在区间[a,b]\left [ a,b \right ][a,b]中的概率是∫[a,b]p(x)dx\int_{\left [ a,b \right ]}p(x)dx∫[a,b]p(x)dx。