当研究并解决一个实际问题时, 我们会
遇到下面问题:
• 1. 这个随机现象可以用什么样的分布律
来刻划,这种分布律的选用合理吗?
• 2. 所选用的这一分布律的参数是多少?
如何估计和确定这些参数?
如何利用数据资料,作出尽可能精确可
靠的统计结论(统计推断):
1) 估计——从局部观测资料的统计特征,推断总体的特征(分布与矩);
2)假设检验——依据抽样数据资料,对总体的某种假设作检验,从而决定对此假定是拒绝抑或接受.
数理统计的基本概念
总体:研究对象全体; 也称母体, 记作 S .
样本:总体中抽出作观测的个体;也称子样,记ω
样本容量:抽取的个体数目;也称样本大小.
例子
随机抽5支,得寿命数据(称为观察[测]值):
725,520,683,992,742
.(小时)
一般记为,
x1 x2 x3 x4 x5
.
又抽5支,
x′1 x′2 x′3 x′4 x′5
.
再抽5支,
x′′1 x′′2 x′′3 x′′4 x′′5
.
…… ……
如此继续. 各组观察值彼此不同.
如此继续. 每组中的第一支灯的寿命,
也彼此不同. 这样,泛指所抽取的第一支荧光灯的寿命应是一个
rv
,记为
X1
. 同样第二支的寿命是
rv X2
,…
如此得一组
rv : X1,X2,X3,X4,X5
称为大小为5的样本.
一般地则有大小(容量)为
n
的样本,称
抽取的样本如能切实保证其随机性,那么应该彼此独立,且能反映总体的随机规律性,即所有样本彼此独立且与总体同分布. 这样的样本,我们称之为简单样本. 这种抽样方法,叫简单抽样.
注意,在有限总体中,各观察结果可能不独立.
样本的数字特征与分布
最简单又方便的样本函数
g(X1,…,Xn)
是
Xi
们的一次和二次的线性组合.
由于样本“平等”,线性组合中应有相等的权系数.
一次时:样本的算术平均值 X¯¯¯ ;
二次时:中心化后的样本二阶中心矩 S2n .
设 X1,…,Xn 为总体 S 的大小为n 的样本, 分别称
X¯¯¯=1n∑i=1nXi S2=1n−1∑i=1n(Xi−X¯¯¯)2
为 样本均值和 *样本方差 (样本方差除以n-1的原因),而依次称
Mk=1n∑i=1nXki S2n=1n∑i=1n(Xi−X¯¯¯)2
为 样本的k阶矩和 样本的二阶中心矩.记号:总体k阶矩:
μk=EXk∫+∞−∞xkdFX(x)
总体的k阶中心矩:
σk=∫+∞−∞(x−EX)kdFX(x)
μ=μ1,σ2=σ2 .
注意
1)
M1=X¯¯¯,S2n
没叫样本方差.
2) 比较总体的期望
μ
、方差
σ2
与矩
μk
:
1. 样本的均值、方差及
k
阶矩等都是
2. 总体的期望、方差及
3)代入观察值, 有相应的样本矩的观察值
x,m
以及
s2
等.
性质 如果总体
k
阶矩存在,则样本的k阶矩的数学期望等于总体的
顺序统计量与经验 df
仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据
725,520,683,992,742
为例,构造
其 df 函数(如后图)称为 经验 df 函数.
设
{xi}
观察值重新依序排列为
{x(n)}: x(1)≤x(2)≤⋯≤xn
称为由 {xi} 决定的 经验 df , 简记为 F∗n(x) .
将以从小到大为序重新排列的一个样本,称为 顺序统计量,专记为 x(1) x(2) … xn
下面一个非常重要的定理确立经验 df 的重要地位. 此定理保证,几乎由每一组观察值得到的经验 df ,只要n足够大,都可作为总体 df 的近似. 定理中一致收敛性和几乎处处收敛性,给了我们充分的自由.从而由样本去找总体 df ,理论上有一个完满的解决.
抽样分布与统计量
正态总体常用的样本函数
1.设总体
S~N(μ,σ2)
. 则
样本均值
X¯¯¯~N(μ,σ2n)
,从而
2. K2n:=∑n1(Xi−μσ)2 的分布 χ2(n)
K2n 是 n 个独立的标准正态变量的平方和,称
3. (n−1)S2σ2~χ2(n−1)
样本均值与样本方差独立, 且
在 K2n=∑n1(Xi−μσ)2 中用 X¯¯¯ 易 μ 得 K2 .
4. T:=X¯−μS/n√~ t(n−1)
Z:=X¯−μσ/n√~N(0,1) 中如 σ 未知, S2 是 σ2 的无偏估计,自然用S代替Z中的 σ 引入T
如果 Z ~N(0,1),Y~χ2(n) 且独立,则称
即自由度 n 的
5. Fnm:=S21σ22S22σ21~F(n−1,m−1)
如果 X~χ2(n),Y~χ2(n) ,且两者相互独立,则称 F=χ2(n)/nχ2(m)/m~F(n,m)
为自由度为n,m的 F分布
性质
• t 分布是对称的,且
n→∞
极限为正态(
n≥30
时近似的效果就很好) .
• t 分布只有
k<n
阶矩.
•
κ2
分布和F分布不对称,且
x<0
时为0.
•
κ2
分布的可加性:设U 与V 独立,且分别~
κ2(n)
和
κ2(m)
,则
U+V~κ2(n+m)
.
对给定的实数
α∈(0,0.5)
, 使
成立的点 y , 称为
使
成立的点 y , 称为
百分位点的值,可由表查得.
例题:
例题1:
设
X1,X2,…,Xn
, 是来自总体
X~N(0,σ2)
的简单随机样本,求统计量
的分布。
解:
由题意可知 Xk~N(0,σ2) 可得
∑10i=1(−1)iXi~N(0,10σ2)
∑10i=1(−1)iXi /10−−√σ~N(0,1)
又因为 ∑20i=11(X2iσ)~χ2(10)
故由t分布定义可得
例题2:
设
X1,X2,…,Xn+1
是正态总体的简单样本,前面容量为n的样本均值和样本二阶中心矩分别为
X¯¯¯
和
S2n
试求下列样本函数的分布
1)
(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2
2)
Xn+1−X¯Snn−1n+1−−−√
解:
1)
(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1
分子服从
χ2(1)
,分母服从
χ2(n−1)
所以整个式子服从
F(1,n−1)
2)
Xn+1−X¯Snn−1n+1−−−√
分母部分变成:
S2n(n−1)σ2~χ2(n−1)
分子部分变成:
Xn+1−X¯σ~N(0,1)
因此原式变成:
Xn+1−X¯σS2n(n−1)σ2√ / n−1√
服从
t(n−1)