一、 区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。
区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。
区间估计的方法
在实际抽样调查中,区间估计根据给定的条件不同,有两种估计方法:①给定极限误差,要求对总体指标做出区间估计;②给定概率保证程度,要求对总体指标做出区间估计。
二、抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框
后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
三、百分位数又称百分位分数(percentile),是一种相对地位量数,它是次数分布中的一个点。把一个次数分布排序后,分为100个单位,百分位数就是次数分布中相对于某个特定百分点的原始分数,它表明在次数分布中特定个案百分比低于该分数。百分位数用P加下标m(特定百分点)表示。譬如,若P30等于60,则其表明在该次数分布中有30%的个案低于60分。
百分位数的计算
其中,Pm——第m百分位数;
L——Pm所在组的组实下限;
U——Pm所在组的组实上限;
f——Pm所在组的次数;
Fb——小于L的累积次数;
Fa——大于U的累积次数。
【例1】某省某年公务员考试考生分数分布如下表所示,预定取考分居前15%的考生进行面试选拔,请划定面试分数线。
分数分组 | 次数 | 向上累积次数 | 向下累积次数 | 向上累积相对次数 |
---|---|---|---|---|
95~99 | 7 | 1640 | 7 | 100% |
90~94 | 16 | 1633 | 23 | 99.57% |
85~89 | 53 | 1617 | 76 | 98.60% |
80~84 | 78 | 1564 | 154 | 95.37% |
75~79 | 90 | 1486 | 244 | 90.61% |
70~74 | 119 | l396 | 363 | 85.12% |
65~69 | 159 | 1277 | 522 | 77.87% |
60~64 | 156 | 1118 | 678 | 68.17% |
55~59 | 140 | 962 | 818 | 58.66% |
50~54 | 145 | 822 | 963 | 50.12% |
45~49 | 140 | 677 | 1103 | 41.28% |
40~44 | 135 | 537 | 1238 | 32.74% |
35~39 | 130 | 402 | 1368 | 24.51% |
30~34 | 126 | 272 | 1494 | 16.59% |
25~29 | 78 | 146 | 1572 | 8.90% |
20~24 | 25 | 68 | 1597 | 4.15% |
15~19 | 20 | 43 | 1617 | 2.62% |
10~14 | 16 | 23 | 1633 | 1.40% |
5~9 | 7 | 7 | 1640 | 0.43% |
解:由于预定取考分居前15%的考生进行面试,即有85%的考生分数低于划定的分数线,由此可知,分数线在70~74这一组中。
【例2】对于考试成绩的统计,如果您的成绩处在95的百分位数上,则意味着95%的参加考试者得到了和您一样的考分或还要低的考分,而不是您答对了95%的试题。也许您只答对了20%,即使如此,您取得的成绩也与95%的参加考试者一样好,或者比95%的参加考试者更好[2]。
【例3】假设想为退休存够钱。可创建一个包括所有不确定变量的模型,如投资年回报率、通货膨胀、退休时的开支等,得到概率分布的结果如下图所示,如果选择平均值,钱不够的概率就会有50%。所以选第90百分位数所对应的投资数,这样钱不够的概率将只有10%。
真值=测量值+校正值=测量值-示值误差、
五、对照组,英文称control group,是指在随机抽取的实验中,起辅助、对比作用,以突出并有力支持从实验组所能得出结论的单组或多组实验。
关于对照组,要注意以下几点:
1、要尽可能消除无关变量,即让所有要形成对比的变量(称作“实验变量”)之外的变量都尽可能地减少。比如,在证明“吸烟会增大得肺癌的几率”的实验或者调查中,如果一个人群为吸烟的官员,另一个人群为不吸烟的核废料处理厂工人,那么这个实验显然是有问题的,因为这增加了职业这个重要的无关变量。
2、对比要鲜明,易于观察。
3、要考虑实验中的种种现实因素之制约,要具有可行性。
六 完全随机设计,又称成组设计,英文称completely random design,是指不加任何条件限制应用随机数字表或随机排列表将观察对象随机地分配到试验组和对照组进行实验观察的一种设计方法,是用随机化的方式来控制误差变异,认为经过随机化处理后,样本间的变异在各个处理水平上随机分布,这样就可将实验结果的差异归于不同处理的影响。
随机区组设计与完全随机设计的区别
1.从定义上看:随机区组和完全随机的设计方式不同。
完全随机的实验设计是,有几种实验处理就有几组被试分组,比如说,研究噪音对数学成绩的影响,你可以研究有无噪音但是也可以研究噪音程度,那么,噪音就要有不同水平,高分贝,低分贝,中分贝三种不同程度的噪音,被试在不同噪音下进行数学作业,分别评估不同水平下,数学成绩的高低从而得出结论。
2.实验误差来源不一样
完全随机设计的误差:被试之间的误差(很大比率),实验误差,不可控误差。
3.进行方差分析的时候不一样:随机区组不用进行方差齐性检验而完全随机需要。
七 完全相关
完全相关,英文称completely correlation,是指两列变量的关系是一一对应,完全确立的关系。在坐标轴上描绘两列变量时会形成一条直线。通常,当两个变量的相关系数为1时,也被视为完全相关。
所谓相关,是指两个或两个以上变量间相互关系是否密切。相关分析仅限于测定两个或两个以上变量具有相关关系者,其主要目的是计算出两个或两个以上变量间的相关程度和性质。
如果一个变量的变化是由其他变量的数量变化所唯一确定,此时变量间的关系就是完全相关。即因变量y的数值完全随自变量x的变动而变动,它在相关图上表现为所有的观察点都落在同一条直线上,这种情况下,相关关系实际上是函数关系。所以,函数关系是相关关系的一种特殊情况。
八 全面调查
全面调查,英文称complete survey,是指对调查对象中所包含的全部单位无一遗漏的调查,其主要目的在于取得总体现象比较全面系统的总量指标。如各种普查和全面统计报表。
九 临界值(阀值)
临界值,又称阀值,英文称critical value,是指是指一个效应能够产生的最低值或最高值。临界值在数据分析中常常用来判定异常情况,比如我们在广告投放中常常设定自己的临界值,当高于临界值,我们就假定渠道广告造假,需要重点盯防分析。
统计学中,常使用箱形图(Box-plot)来判定是否异常,来判定临界值的大小。

因变量,英文称dependent variable,是指某特定的数会随另一个(或另几个)会变动的数的变动而变动,就称为因变量。如:Y=f(X)中,Y随X的变化而变化。Y是因变量,X是自变量。
从某种程度上讲,自变量是“原因”,而因变量就是“结果”。