1. 总体与样本
0x1:数理统计中为什么要引入总体和个体这个概念
概率论与数理统计中,一个很重要的研究对象就是总体的概率分布,理论上说,我们希望获得被研究对象的总体样本,基于这份总体样本进一步研究其概率分布,但是遗憾地是,几乎在100%的情况下,我们都不可能获得真正的总体,我们只能获取有限的样本量(例如自然生物里的统计问题),有时候甚至还是非常少的小样本集(例如宇宙星体观测结果),如何有效、准确、误差可控地利用有限的样本集,进行最大程度合理的统计推断,既是一个理论研究课题,也是非常有现实意义的应用理论。
因此概率论与数理统计科学家们提出了总体和个体这个概念,主要观点如下:
- 在大数定律的理论支撑下,只要我们的个人样本数足够多,个人样本的统计量会在趋近于1的概率下,趋近于总体样本的统计量。这就是我们在没有完整总体样本的情况下,依然能够利用概率论与数理统计这个强大的武器,对未知的事物开展统计研究的理论依据。
- 同样在大数定律的理论支撑下,即使样本数不够多,基于有限的样本数得到的估计结果,和理论总体之间的误差,也可以可以通过概率分布统计量的形式,定量地给出的,这给统计推断的不确定性决策提供了基础。
0x2:总体与样本
1. 总体的形式定义
在一个统计问题中,我们把研究对象的全体称为总体,也即样本空间全集,构成总体的每个成员称为个体,也即样本子集。
对于具体问题中,我们将研究对象的某个数量指标值(例如身高)的全体称为总体,每一个总体都是由一组数据组成的,因此可以用一个概率分布描述,所以说总体数量指标就是服从一个分布的随机变量。
我们用大写字母X表示总体,那么总体X就是具有未知分布函数F(x)的一个随机变量。
2. 样本的形式定义
在数理统计中,总体分布永远是未知的。所以我们希望从客观存在的总体中按一定的规则选取一些个体(即抽样),通过对这些个体作观察或测试来推断关于总体分布的某些统计量(例如总体X的均值、方差、中位数等),被抽取出的这部分个体就组成了总体的一个样本。
这里所谓的”一定规则“,是指保证总体中每一个个体有同等的机会被抽到的规则。
在总体中抽取样本的过程称之为”抽样“,抽取规则则称之为”抽样方案“。在大部分时候,我们都采用简单随机抽样,表示对总体的每一个抽样,总体中的所有个体都有相同的被选概率,用这种抽样方案得到的样本称为简单随机样本。
由于在观测前,样本观测值是不确定的,所以样本是一组随机变量(或随机向量),为了体现随机性,用大写字母(X1,X2,....,Xn)表示,其中n为样本的大小,称之为样本容量。
一旦给定的简单随机抽样方案实施后,样本就是一组数据,用小写英文字母(x1,x2,...,xn)表示,也称为样本观测值。
简单随机样本具有下列两个特性:
- 1)相互独立性:X1,X2,...,Xn相互独立,样本中每个个体的取值不受到其他个体取值的影响
- 2)代表性:Xi 同总体分布(Xi ~ f(xi;θ)),总体中的每一个个体都有同等机会被选入样本
3. 样本的联合分布概率函数公式
我们知道,简单随机样本表示X1,X2,...,Xn是独立同分布的随机变量,且每一个 Xi 的分布都与总体X的分布相同,因此我们可以根据概率论中多维随机变量分布的性质得到样本的联合分布如下:
1)离散型随机变量
设总体X是一个离散型随机变量,分布律为P(X=x;θ),样本(X1,X2,....,Xn)的联合分布律为:
2)连续型随机变量
设总体X是一个连续型随机变量,密度函数为f(x;θ),样本(X1,X2,....,Xn)的联合密度函数为:
样本的联合分布累乘公式是一个非常基础且重要的公式,是很多下游算法的公式基础,它表达了一个最质朴的概率论思想,即:任何复杂的事物都可以分解为多个复杂度更低的子事件,所有子事件同时发生等同于复杂事物发生,而所有独立同分布的子事物同时发生在概率论中又等价于所有子事物的概率逐个累乘。即P(AB) = P(A)*P(B)。
样本的联合分布概率函数公式,在模型参数估计、NLP语言模型建模等领域中都有广泛应用。
3)样本联合分布函数举例说明
设总体X~B(1,p),(X1,X2,...,Xn)为取自该总体的一个样本,求样本(X1,X2,...,Xn)的联合分布律f(x1,x2,...,xn;p)
在概率分布函数的讨论中,我们的讨论对象往往是在某个确定的概率函数前提下,某个点或某个区间的确定性概率问题。而在样本联合分布概率函数的讨论中,我们的讨论对象是多个相同的概率分布函数叠加在一起,综合而成的一个新的概率分布函数。它们二者之间有点像个体与群体的关系。
Relevant Link:
《概率论与数理统计》同济大学数学系 第6章 第一节
2. 样本随机变量的统计量
0x1:为什么要研究样本的统计量
数理统计中最重要的部分就是研究样本的概率分布,也即抽样分布。
抽样分布也是一种随机变量,因此自然也有对应的概率密度函数以及概率分布函数。但其实对抽样分布的概率分布函数的研究并不是十分重要,或者说相比于抽样分布的统计量研究来说不是那么重要。
我们研究样本的核心目的在于估计总体分布的形式和参数,而抽样分布的统计量,是连接抽样分布和总体分布之间的桥梁,基于抽样样本的统计推断是基于抽样统计量作出的,所以研究抽样分布的统计量是统计推断中一个十分重要的环节。
0x2:样本统计量 - 连接样本和总体未知参数推断之间的桥梁
数理统计的基本任务之一是利用样本所提供的信息来对总体分布中未知的量进行推断,简单来说,就是由样本推断总体。
但是,样本常常表现为一组数据,很难直接用来解决我们所要研究的具体问题,人们常常把数据加工成若干个简单明了的数字特征,由数据加工后的数字特征就是统计量。所以说统计量综合了样本的信息,是统计推断的基础。统计量的选择和运用在统计推断中占核心地位。
1. 样本统计量基本定义
设(X1,X2,...,Xn)为取自总体的一个样本,样本(X1,X2,...,Xn)的函数为g(X1,X2,...,Xn),若g中不直接包含总体分布中的任何未知参数,则称g(X1,X2,...,Xn)为统计量。统计量本质上也是一种随机变量。
在抽样前,统计量是一个随机变量,在抽样后,得到样本(X1,X2,...,Xn)的一次观测值(x1,x2,...,xn),则所得的g(x1,x2,...,xn)即为统计量的一次观测值。它是一个可以由数据算得的实数。
统计量本身不包含总体分布中的未知参数,我们构造统计量的主要目的就是去估计总体分布中的未知参数。
2. 一些常用的样本统计量
1)样本均值
设(X1,...,Xn)是一个样本,称:
为样本均值。
2)样本方差
称:
为样本方差。
称:
为样本标准差。
3)k阶原点矩
一般地,对任意一个正整数k,称:
为样本的k阶原点矩。特别的,当k=1时,k阶原点矩退化为样本均值。
4)k阶中心矩
称:
为样本的k阶中心矩。
特别的,当k=2时,二阶中心距M2为:
二阶中心矩M2和样本方差的关系为:
显然,样本方差比样本的二阶中心矩更大一些,有的教材上也称样本方差S为样本无偏估计,称二阶中心矩为有偏估计。
5)词序统计量
词序统计量X(1),X(2),...,X(n)是X1,X2,...,Xn由小到大排序得到的,加圆括号的下标表示排序。
设(X1,X2,...,Xn)是取自总体X的一个样本,总体X的密度函数为。
样本中取值最小的一个记为,即
,称为最小次序统计量。
样本中取值最大的一个记为,即
,称为最大次序统计量。
称为第i次序统计量,i=1,2,...,n,满足:
记和
的密度函数分别为
和
,由概率密度函数的定律可得:
次序统计量本质上是基于原始的概率分布进行了一个函数映射后,得到了一个新的概率分布函数,那么这个新的概率分布函数的形式和原始概率分布函数是什么关系呢?我们以指数分布为例,来具体讨论下。
设(X1,X2,...,Xn)是取自总体X的一个样本,总体X~E(λ),分别求次序统计量,
的分布。
总体X~E(λ),所以密度函数为:
分布函数为:
根据最小次序统计量的概率密度函数分布式可得:
即:
根据最大次序统计量的概率密度函数分布式可得:
3. 常用样本统计量的性质
由于统计量是样本(X1,X2,...,Xn)的函数,因此统计量也是随机变量,因此统计量也同样具备随机变量的一些性质。而考察随机变量的性质,本质上就是用各种统计量来描述随机变量,所以我们同样可以用随机变量的统计量来考察统计量本身,即统计量本身的统计量。
1)样本均值的统计性质
这个公式要这么理解,我们将样本均值作为一个随机变量,将每次抽样看做一次观测,则在多次观测下,样本均值本身呈现出的均值和方差的统计规律。
样本均值的均值还是均值,样本方差的均值,随着样本数n的增大而负向减小。
该性质表明:样本集可以一定程度上代替总体,实现总体参数估计的目的。因为估计样本的均值就等于估计出了总体的均值,而随着样本数的增加,代表估计误差的均值方差也是逐渐降低,通俗地说就是样本越多,参数估计的就越准确。
2)样本方差和二阶中心矩的统计性质
上式表明样本方差的均值还是方差,样本二阶原点矩的均值,随着样本数n的增加而缓慢增大,这也所谓有偏估计的由来。
该性质表明:样本集并不改变总体的方差分布,对原始的总体来说,样本既不增加新的信息熵,也不减少信息熵。
3)样本均值和方差的依概率收敛性
由独立同分布情形下的大数定律得到:
,
所以有:
在大数定理下,不管是有偏估计还是无偏估计,样本均值和样本方差最终都会收敛到总体均值和总体方差。
样本均值和方差的概率收敛性,也是矩估计法和极大似然估计的理论依据,它从理论上证明了基于样本进行数理统计的合法性和有效性。
4)二项分布总体下的样本统计量求解
这个小节我们用一个具体的例子来阐述,如何对统计量的各种概率性质进行定量的分析和计算。
设(X1,X2,...,Xn)是取自总体X的一个样本,当X~B(1,p)时,分别求下列几个统计量:
由二项分布的性质我们知道:
所以有:
0x3:三大分布 - 正态总体假定下,对样本随机变量进行特定统计量函数变换映射后,得到的3种特定概率分布
标题取得有一些绕,笔者这里尽力分解解释一下。
前面说到,样本是从符合一定概率分布的总体(任意概率分布形式)中通过某种采样方案,采样抽取得到的。所以我们将样本看做是一种随机变量,并计算样本随机变量的统计量,例如前面介绍了常用的统计量(例如均值、方差、次序统计量)。但统计量本质也是一种函数变换(例如均值统计量就是一种固定形式的函数),统计量本身又是一种新的随机变量,所以统计量本身也是有概率分布函数形式的。
在所有总体假设中,正态分布是应用最广泛的一种概率分布,根据中心极限定律,所有的概率分布在大数n情况下,都会趋近于正态分布,所以我们本章讨论正态分布总体下的抽样分布。
虽然正态总体假设下,抽样随机变量的统计量形式可以由很多种,但是在学术研究和工业实践中,使用最多的还是3大分布,本章我们讨论数理统计中用的比较多的3种分布,包括x2分布、t分布、F分布,它们在正态总体的统计推断中起着重要作用。
笔者提醒:显然,数理统计中并不只有这3种概率分布,理论上说,针对正态总体的抽样,我们可以用任意的统计量g()函数来得到新的随机变量,在一些特定的工业场景中,也确实需要我们创造新的统计量函数来应对特定的复杂场景。
1. X2分布
1)概率分布数学公式
设X1,X2,...,Xn为相互独立的标准正态分布随机变量,都服从N(0,1),称随机变量:
所服从的分布为自由度为n的 χ2 分布,记作Y ~ χ2(n)。样本数n越大,自由度越大。
χ2(n)分布的密度函数为:
密度函数的图像如下,它随着自由度n的不同而有所改变。
2)概率分布性质
χ2分布具有如下性质:
- 当Y ~ χ2(n)时,E(Y)=n,D(Y)=2n
-
χ2分布的可加性:设X与Y相互独立,且X~χ2(m),Y~χ2(n),那么,X+Y ~ χ2(m+n)
3)x2分布概率分布计算举例
设(X1,X2,X3,X4,X5,X6)为取自标准正态总体N(0,1)的一个样本,分别求下列三个统计量的分布:,并求a,b的值。
由样本的定义可知,X1,X2,X3,X4,X5,X6相互独立,且都服从N(0,1)分布,所以根据χ2分布的定义可知,即自由度为2个χ2分布。
同理,,即由一个样本组成的概率分布为自由度为1的χ2分布。
,即
,又
,即
所以由χ2分布的定义可知:
整理可得,a=1/2,b=1/3。
2. t分布
1)概率分布数学公式
设随机变量X与Y相互独立,且X~N(0,1),Y~χ2(n)。称随机变量:
服从自由度为n的t分布(学生氏分布),记为T~t(n)。
T的值域是(-∞,∞),t(n)分布的概率密度函数为:
t(n)分布的密度函数图像如下,关于直线t=0对称:
当n充分大时,其图形类似于标准正态分布N(0,1)的密度函数图像,即
t(n)分布的p分位数记作ta(n),即当T~t(n)时,P(T ≤ ta(n)) = p。
在实际中,当n>45时,对于t分布的分位数值,就用标准正态分布的分位数近似,即
3. F分布
1)概率分布数学公式
设随机变量X与Y相互独立, 且X ~ χ2(m),Y ~ χ2(n),称随机变量:
所服从的分布是自由度为(m,n)的F分布,记作F ~ F(m,n)。其中m称为第一自由度,n称为第二自由度。
F(m,n)分布的概率密度函数为:
F(m,n)分布的概率密度函数图像如下:
F(m,n)分布的p分位数记作Fp(m,n),即当F ~ F (m,n)时,,对一些常用的p,可以通过查表得到,且同时具有如下性质:
2)F分布概率分布计算举例
设随机变量T~t(n),F=1/T2,求随机变量F的分布。
由于T~t(n),设,其中随机变量X与Y相互独立,且X~N(0,1),Y~χ2(n)。
则有:
又因为X2~X(1),且X2与Y相互独立,根据F分布的公式定义,可得:
F ~ F(n,1),即第一自由度为n,第二自由度为1的F分布。
0x4:正态总体假定下的抽样分布的统计量性质
统计量是样本(X1,...,Xn)的函数,它是一个随机变量。统计量的分布称为抽样分布。
设(X1,...,Xn )是取自正态总体N(μ,σ2)的一个样本。下面来研究统计量的性质,我们会看到,有很多分布性质是需要借助3大分布来表达的,这也是3大分布在数理统计中重要性的体现,同时在后文讨论假设检验的时候,3大分布还会频繁出现。
定理1
,或等价地