目录
一、概念
检验是统计学的基本原理之一,它通过样本来判断总体(全体数据)是否具有统计学的意义。具有统计学的意义指的是由样本来推测总体的特征,得出与总体特征有关的结论。
emmmmm,貌似就算知道了概念还是不知道它是干什么用,为什么要用它?
很多时候要得到所需的全部数据,从客观条件和技术操作上来讲非常困难,即使能够做到也会过度消耗时间和人力成本,在这种情况下,通常会使用样本数据,很多时候样本数据很大程度上反映了总体的特征。所以用样本推测总体的特征并得出与总体特征有关的结论就是检验。
二、检验的一般步骤
- 步骤一:结合总体的特征建立假设(通常为被拒绝的假设)
- 步骤二:计算制作概率分布所需的值(称为统计量或检验统计量)
- 步骤三:设定5%或10%这种拒绝假设的标准(这被称为拒绝区),判断通过样本求出的统计量是否在该拒绝区内,若在拒绝区内则拒绝假设,若不在拒绝区内则不拒绝假设。
三、简单例子说明
例子:
一枚硬币,投掷10次,有8次是正面朝上,这个现象能用偶然来解释吗?或者说这枚硬币投掷后比较容易正面朝上,也就是说正反面朝上的概率各为50%的假设是不成立的?
步骤一:这个例子假设“硬币正面朝上的概率为50%”,如果得出的统计量的概率是低于5%的就拒绝假设也就是结论为它较容易投掷出正面。
步骤二:利用二项分布的概率原理计算出投掷10次硬币出现的正面或反面朝上的概率,并用图表表示以上的结果。
下图是使用二项分布以正、反面出现的概率各为50%计算出的结果。
步骤三:由上图可以看出,10次中出现8次正面朝上的概率为4.4%<5%,因此拒绝前述假设,得出这枚硬币投掷正、反面朝上的概率不是各50%的这个结论。
好吧,其实看到了这里还是不太明白,整一个检验的过程和意义,接下来,看看检验的实际应用。
四、实际应用
1、独立性检验
(1)如下图所示,表示的是某段时间内A国到E国的A、B产品的销售业绩。(称为观察数据1)
问题一:它能说明A、B产品在不同国家的销售情况相差很大吗?
问题二:这些样本数据可以推出什么有关所有时间段内数据(即总体)的结论吗?
分析的目的:假如从结果得知A产品在某国的销售业绩高于其他国家,则需要决定是否在该国增加对A产品的推广经费。
但是,单从上表的数据,不同的人得出的主观性结论也会各不相同。从上表的数据来看我们可以直接得出A产品在B国卖的最好,B产品在A国卖的最好吗?
据此,尝试用统计方法通过样本来推测某国有或没有某产品的(不能仅用偶然来解释的)销售倾向。这里应选择独立性检验的方法。先建立假设“产品在不同国家的销售情况不存在差异”,然后检验其是否正确,如果统计结果拒绝假设,即可得出“产品在不同国家的销售情况存在差异”的结论。
步骤一:结合总体的特征建立假设
假设“A、B产品在不同国家的销售情况不存在差异”。检验的思路是在设想存在差异的前提下,建立相反的假设,再通过否定假设来进行验证。
步骤二:计算制作概率分布所需的值(称为统计量或检验统计量)
销售情况不存在差异则所有值都服从期望值,在进行独立检验时使用以下公式所表示的“检验统计量”,另外已知此检验量服从x^2值(卡方检