一.实验目的
分别使用Excel、SPSS和Python软件做区间估计,探究哪种软件可以实现哪几种区间估计。
二.实验内容
参数的点估计给出了一个具体的数值,但其精度如何,点估计本身无法给出回答。在实际中,度量一个点估计的精度最直观的方法是给出未知参数的一个区间。
1. 区间估计的概念
设 是总体的一个参数, 是样本,在得到样本观测值后,把 估计在区间 内。由于样本的随机性,区间 盖住未知参数 的可能性并不确定,通常要求这个区间盖住 的概率越大越好,但这必然导致区间长度增大,使得估计的精度降低,为了解决这种矛盾,引入了置信区间的概念。即在置信度为 条件下,寻找精度最高的区间估计。
2. 定义
设 是总体的一个参数,其参数空间为 , 是来自该总体的样本,对给定的一个 ,假设有两个统计量 和 ,若对任意的 ,有
则称随机区间 为 的置信水平为 的置信区间, 和 分别为置信下限和置信上限。
3. 枢轴量法
构造未知参数 的置信区间的最常用的方法是枢轴量法,其步骤可以分为:
⑴设法构造一个样本和 的函数G,使得G的分布不依赖于未知参数。
⑵适当地选取两个常数c和d,使对给定的 ,有
⑶把 解出来。
4. 单个正态总体参数的置信区间
⑴ 已知时 的置信区间
枢轴量可选为 ,置信区间为
⑵ 未知时 的置信区间
统计量为 ,置信区间为
⑶ 的置信区间
统计量为 ,置信区间为
5. 两个正态总体下的置信区间
设 是来自 的样本, 是来自 的样本,且这两个样本相互独立。
⑴ 的置信区间
① 和 已知时
此时有
取统计量为
的 置信区间为:
② 未知时
此时有 ,
取统计量为
记 ,则 的置信区间为
③ 已知时
选取统计量为
记 ,
的 置信区间为:
⑵ 的置信区间
由于 ,且 和 相互独立
选取的统计量为
对给定的置信水平 ,由
置信区间为
6. 配对样本t检验
三.实验过程
1. 已知时 的置信区间
考虑下面一个案例
随机从一批苗木中抽取16株,测得其高度(单位:m)为:
1.14 1.10 1.13 1.15 1.20 1.12 1.17 1.19 1.15 1.12 1.14 1.20 1.23 1.11 1.14 1.16
设苗的高度服从正态分布,求总体均值 的0.95的置信区间。( )
I使用Excel
步骤:1.录入数据
2.计算均值,标准差,方差,分别如下
均值:=AVERAGE(A1:A16)
样本标准差:=STDEV(A1:A16)
总体标准差:=STDEVP(A1:A16)
样本方差:=VAR(A1:A16)
总体方差:=VARP(A1:A16)
3.计算置信下限和置信上限
置信下限:=B2-NORMSINV(1-0.5*0.05)*0.01/SQRT(COUNT(A1:A16)
置信上限=B2+NORMSINV(1-0.5*0.05)*0.01/SQRT(COUNT(A1:A16)
保留小数位:按住Ctrl键,可以选中多个目标框,在设置单元格格式的数值中进行修改。
置信区间为:(1.148,1.158).
在Excel中也可以利用CONFIDENCE(alpha,standard_dev,size)函数来计算正态总体方差已知情况下的置信区间:该函数的返回值等于 。
II使用SPSS
利用SPSS的Explore过程求置信区间时,SPSS运用的是t分布函数,而不是标准正态分布函数。因此,与 已知与否无关。
III使用Python
2. 未知时 的置信区间
I使用Excel
置信下限:=B2-TINV(0.5*0.05,COUNT(A1:A16)-1)*C2/SQRT(COUNT(A1:A16))
置信上限:
=B2+TINV(0.5*0.05,COUNT(A1:A16)-1)*C2/SQRT(COUNT(A1:A16))
置信区间为:(1.1304276,1.1758224).
注意:在Excel中,区间估计为
II使用SPSS
输出结果:
所以,总体均值 的0.95的置信区间[1.1337,1.1726].
III使用Python
3. 的置信区间
I使用Excel
置信下限:
=(COUNT(A1:A16)-1)*D2/CHIINV(0.5*0.05,COUNT(A1:A16))
置信上限:
=(COUNT(A1:A16)-1)*D2/CHIINV(1-0.5*0.05,COUNT(A1:A16))
的置信区间为:(0.0006914,0.0028872,)
注意:在excel中区间估计为:
II使用SPSS
III使用Python
4. 和 已知时, 的置信区间
考虑下面一个案例
某班20人进行了数学测验,第1组和第2组测验结果如下:
第一组:91 88 76 98 94 92 90 87 100 69
第二组:90 91 80 92 92 94 98 78 86 91
已知两组的总体方差分别是57与53,取 ,能否认为两组学生的成绩有差异?
I使用Excel
操作步骤:
i.录入数据
ii计算置信区间
置信下限:=C2-C5-NORMSINV(1-0.5*0.05)*SQRT(57/E2+53/E5)
置信上限:=C2-C5+NORMSINV(1-0.5*0.05)*SQRT(57/E2+53/E5)
的置信区间为:(-7.20047,5.800465).
II使用SPSS
III使用Python
已知时,u1-u2的置信区间为:
[-7.2004651393292933, 5.8004651393292876](代码见附录1)
5. 未知时, 的置信区间
I使用Excel
,其中
置信下限:
=C2-C5-TINV(0.5*0.05,F2+F5-2)*SQRT((F2+F5)/F2/F5)*G2
置信上限: =C2-C5+TINV(0.5*0.05,F2+F5-2)*SQRT((F2+F5)/F2/F5)*G2
故 的置信区间为[-9.46307,8.063071].
II使用SPSS
两独立样本t检验
1. 录入数据,并增加新的变量group,并设定“1=第一组,2=第二组”
2.
3.
4.
5.
6. 输出结果:
结果分析:两组学生成绩的均值,标准差。
由方差方程的Levene检验可知,F的相伴概率(sig)为0.375,大于显著性水平0.05,不能拒绝方差相等的假设,可以认为两组学生的数学成绩方差无显著差异,然后看方差相等时T检验的结果,p值为0.847,大于显著性水平0.05,不能拒绝T检验的原假设,即认为两组学生的数学成绩没有差异。且 的置信区间为[-8.230,6.830].
III使用Python
未知时, 的置信区间:
[-8.2298510092259658, 6.8298510092259601]
结果与SPSS相同,与Excel有差别原因:
分别使用Excel和Python计算 ,发现在Excel中, ,在Python中 ,经过查表知 ( )。可以发现Excel做t检验并不精确,不建议使用。
6. 已知时, 的置信区间
其中,
案例中的方差已知改为两者总体方差之比为2,其它同上。
I使用Excel
置信下限:=C2-C5-TINV(0.5*0.05,F2+F5-2)*SQRT((2*F2+F5)/F2/F5)*G2
置信上限:=C2-C5+TINV(0.5*0.05,F2+F5-2)*SQRT((2*F2+F5)/F2/F5)*G2
的置信区间为[-10.603,9.203027].
II使用SPSS
III使用Python
已知时, 的置信区间
[-9.2093826709983961, 7.8093826709983905]
7. 的置信区间