从直观的算数平均数开始,逐步引导到更复杂的“差距”刻画(即方差、标准差)以及最终推导出常用的统计分布。目的是让初学者更容易理解这个从直觉到严密数学推导的过程。
在统计学中,我们往往从一个样本的数据出发,试图推断总体的特性。为了更好地理解样本数据,我们首先需要对它们进行总结:
- 最简单的方式是计算 样本均值。
- 但这仅仅是一个开始,随着统计学的发展,我们逐渐引入了更精细的概念,如 方差 和 标准差,这些概念帮助我们更全面地描述样本数据的特性。
- 最终推导出一些重要的统计分布,例如 t分布、卡方分布 和 F分布。
本文将带你从最基本的算数平均数开始,逐步引导你理解如何使用平方差来刻画样本数据的“差距”,并最终通过这些工具推导出常见的统计分布,告别传统教科书先导入一大堆不知所云的抽样分布,再给出样本的数字特征的估计。
一、从算数平均数开始:计算样本均值
我们首先从最简单的概念出发,样本均值。在日常生活中,我们常用算数平均数来代表一组数据的“典型值”或“中心位置”。它是所有样本数据加起来的总和,除以样本的数量。
假设我们有 n 个样本数据 x1,x2,…,xn,那么样本均值 的计算公式是:
直观解释
- 我们获得n个不同的数
- 然后将它们相加
- 获得一个值,除以它们的个数
样本均值告诉我们,数据的大致中心位置在哪个地方。
二、进一步刻画“差距”:从均值到方差
虽然样本均值给出了数据的中心位置,但它并没有告诉我们数据围绕这个中心的分布情况。为了描述这一点,我们引入了 方差 和 标准差,这两个概念帮助我们量化数据点与均值之间的偏离程度。
偏差
- 首先,我们可以计算每个数据点与均值的偏差,即每个数据点与样本均值的差:
-
然而,偏差本身有正负之分,若直接求和会得到0(因为所有数据点与均值的偏差和为0)。为了避免这种情况,我们将偏差进行平方,得到 平方差:
通过平方差,我们能够避免正负抵消,并且放大偏差较大的数据点对整体结果的影响。
方差(最重要)
- 将所有平方差加起来并求平均,就得到了 方差,它是描述样本数据——离散程度——的一个重要指标。样本方差的公式是(除以n-1是根据自由度进行的修正):
-
方差越大,表示数据点离均值越远,数据的分散程度也越大;方差越小,则说明数据更集中,离均值较近。
标准差
- 标准差是方差的平方根,和方差一样用于衡量数据的离散程度。它的单位和数据本身相同,因此在实际应用中通常使用标准差而不是方差。
三、从样本方差到常用统计分布
了解了样本均值、方差和标准差后,我们就进入了更高层次的统计推导。接下来,我们将看到如何利用样本数据的方差,推导出一些常见的统计分布。这些分布在统计推断和假设检验中具有广泛应用。
1. 卡方分布:为了求样本方差
卡方分布的引入主要是为了计算样本方差。
- 假设我们从一个总体中抽取了 n 个样本,样本均值为
,样本方差为
- 已知总体的分布是正态分布:
,总体方差为
- 我们希望通过样本方差来推断总体方差。
根据统计学原理,如果样本来自正态分布,总体方差 可以通过样本方差
来估计。然而,样本方差
并不是正态分布,而是一个 卡方分布,这就是为什么它是一个抽样分布!
下面我们给出两个步骤,计算样本方差:
1. 标准化
每个样本数据 与总体均值
的偏差,可以通过除以总体标准差
来标准化,得到一个标准正态分布的随机变量
:
- 这些标准化后的随机变量
服从标准正态分布。
2. 平方和
- 接下来,如果我们对每个标准化值平方,求和
- 我们就得到了乘以常数倍
的样本方差公式,这符合卡方标准正态平方和的定义,这就是一个 卡方分布!
- 若用
代替
,则符合自由度为 n-1的卡方分布(在运算
时,已经用去一个自由度)
它描述了样本方差的分布。因此,通过卡方分布,我们可以研究样本方差 的性质,并为后续的推导奠定基础。
3. 样本方差性质
样本方差 的计算公式是(考虑了
消耗了自由度后的修正方差):
;
为了凑出标准化的形式,两边同除 、同乘
,
得到:
去掉中间的推导过程,我们有结论:
卡方分布用于推断样本方差的分布特性,并且在假设检验中有着重要作用。
2. t分布:总体方差未知时的标准化
在实际应用中,卡方分布常数项中,总体方差往往是未知的,我们只能依赖样本数据来进行估计。这时,我们需要用 样本标准差 来代替总体标准差
,并且用样本均值
来代替总体均值
。这样,我们就可以使用 t分布 来进行统计推断。
t分布的推导过程如下:
- 假设总体均值为
,样本均值为
,
- 样本标准差为 s,样本量为 n,那么我们可以构造一个 t统计量:
- 这个统计量服从 t分布,自由度为 n−1:
t分布用于检验样本均值与总体均值之间的差异,尤其是在样本量较小的情况下,比正态分布更为适用。
3. F分布:比较多个样本方差
当我们需要比较两个或多个样本的方差时,F分布 是一个非常有用的工具。F分布是由两个 卡方分布 的比值构成的。
- 其中,
F分布广泛用于 方差分析(ANOVA)中,用来检验不同组样本方差是否相等,或者检验模型的整体显著性。
四、总结
从最简单的算术平均数开始,我们逐步引入了方差和标准差来更精确地描述数据的分布特性。这些统计工具不仅帮助我们总结数据,还为我们提供了推断总体特性、检验假设的重要手段。
- 样本均值:描述数据的中心位置。
- 样本方差:描述数据的离散程度,衡量数据点与均值之间的“差距”。
- 卡方分布:用于推断样本方差,并作为正态分布的方差估计的基础。
- t分布:用于总体方差未知时检验样本均值与总体均值的差异。
- F分布:用于比较两个或多个样本的方差。
这些概念和分布的推导为我们提供了强大的工具,帮助我们更好地理解和分析数据。
希望这篇博客能够帮助你从直观的角度理解统计学的基本概念,并为深入学习统计推断打下基础。