统计数据中隐含着非常丰富的重要信息,要有效地充分利用统计数据,需要愚弄推断统计的方法。推断统计就是在搜集、整理观测样本数据的基础上,对有关总体做出推断,其特点是根据随机的观测样本数据以及问题的条件和假定,对未知事物作出的以概率形式表述的推断
随机事件及其概率
1. 随机事件的几个基本概念
试验:在同一组条件下,对某事物或现象所进行的观察或实验;
事件:观察或实验的结果
- 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件,也叫偶然事件;
- 必然事件:在同一组条件下,每次试验一定出现的事件;
- 不可能事件:在同一组条件下,每次试验一定不出现的事件
概率论研究的是随机事件,并且把必然事件与不可能事件包括在随机事件内作为两个极端来看待
- 基本事件:如果一个事件不能分解成两个或更多个事件,则这个时间成为基本事件或简单事件;
- 样本空间: 一个试验中所有的简单事件的全体称为样本空间或基本空间
2. 事件的概率
事件A的概率是对事件A在试验中出现的可能性大小的一种度量,记事件A出现可能性大小的数值为P(A),P(A)称为事件A的概率。基于对概率的不同解释,概率的定义有所不同,主要有古典定义、统计定义和主观概率定义。
-
概率的古典定义
具有下述两个特点的随机试验所研究的问题称为古典概型:
- 结果有限;
- 各个结果出现的可能性被认为是相同的
即概率的古典定义是,如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值。
-
概率的统计定义
古典概率局限在随机试验只有有限个可能结果的范围内,这使其应用受到了很大限制。因此,人们又提出了根据某一事件在重复试验中发生的频率来确定其概率的方法,即概率的统计定义。
在相同条件下随机试验n次,某事件A出现m次(m ⩽ n),则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为该事件的概率,记为
P ( A ) = m n = p P(A) = \frac{m}{n} = p P(A)=nm=p -
主观概率定义
概率的统计定义也有其局限性。在实际应用中要求在相同的条件下进行大量重复试验,而事实上很多现象并不能进行大量重复试验,特别是一些社会经济现象无法重复。有些现象即使能重复试验,也很难保证试验条件完全一样。因而,人们提出主观概率的概念
主观概率的定义是,一个决策者根据本人掌握的信息对某个事件发生可能性作出的判断。
离散型随机变量及其分布
1. 随机变量的概念
随机事件可以用一个数量标识来表示,根据某随机事件A出现的概率定义P(A),可以把A换成数量标识X,于是X具有确定概率P(X)。
在同一组条件下,如果每次试验可能出现这样或那样的结果,并且所有的结果都能列举出来,即X的所有可能值x1,x2,… ,xn 都能列举出来,而且X的可能值x1,x2,… ,xn 具有确定的概率P(x1),P(x2),… ,P(xn),其中P(xi) = P(X=xi),称为概率函数,则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。
两种类型的随机变量
按照随机变量的特性,通常可把随机变量分为两类,即离散型随机变量和连续型随机变量。
-
离散型随机变量
如果随机变量X的所有取值都可以逐个列举出来,则称X为离散型随机变量。例如,在一批产品中取到次品的个数
-
连续型随机变量
如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,则称X为连续型随机变量。例如,一批电子元件的寿命
2. 离散型随机变量的概率分布
- 0—1分布
- 均匀分布
- 二项分布
具有下述特征
- 包含n个相同的试验
- 每次试验只有两个可能的结果:“成功”或“失败”,这里的“成功”或“失败”是广义的
- 出现“成功”的概率p对每一次试验是相同的,“失败”的概率q也是如此,且p+q=1
- 试验是互相独立的
- 试验“成功”或“失败”可以计数,即试验结果对应于一个离散型随机变量
的n次重复独立试验为n重贝努利试验,简称贝努利试验
-
超几何分布
-
泊松分布
泊松分布是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。
下面是一些典型的服从泊松分布的随机变量的例子:
- 某种仪器每月出现故障的次数;
- 单位时间内到达某一服务柜台需要服务的顾客人数
离散型随机变量的期望值和方差
-
期望值
期望值E(X)也称为随机变量X的数学期望,它表示随机变量本身的平均水平或集中程度。
由离散型随机变量X的期望值定义可以看到,它与加权算术平均数的算法有点类似,其实它是加权算术平均数的一种推广。一般加权算术平均数是具体数据的平均指标,而这里所说的期望值是随机变量X的期望指标。
-
方差与标准差
-
离散系数
离散系数可用来比较不同期望值的总体之间的离中趋势,计算公式为
V
=
σ
E
(
X
)
V = \frac{σ}{E(X)}
V=E(X)σ
连续型随机变量的概率分布
由于连续型随机变量可以去某一区间或整个实数轴上的任意一个值,所以我们不能像对离散型随机变量那样列出每一个值及其相应的概率,而必须采用其他的方法,通常用数学函数和分布函数的形式来描述。当用函数f(x)来表示连续型随机变量时,我们将f(x)称为概率密度函数。
概率密度函数应满足下述两个条件:
连续型随机变量的期望值和方差分别定义为:
正态分布
-
正态分布的定义以及图形特点
-
标准正态分布