一个数理统计学习路径的矫正:从样本数字特征到抽样分布

从直观的算数平均数开始,逐步引导到更复杂的“差距”刻画(即方差、标准差)以及最终推导出常用的统计分布。目的是让初学者更容易理解这个从直觉到严密数学推导的过程。


在统计学中,我们往往从一个样本的数据出发,试图推断总体的特性。为了更好地理解样本数据,我们首先需要对它们进行总结:

  • 最简单的方式是计算 样本均值。
  • 但这仅仅是一个开始,随着统计学的发展,我们逐渐引入了更精细的概念,如 方差标准差,这些概念帮助我们更全面地描述样本数据的特性。
  • 最终推导出一些重要的统计分布,例如 t分布卡方分布F分布

本文将带你从最基本的算数平均数开始,逐步引导你理解如何使用平方差来刻画样本数据的“差距”,并最终通过这些工具推导出常见的统计分布,告别传统教科书先导入一大堆不知所云的抽样分布,再给出样本的数字特征的估计。


一、从算数平均数开始:计算样本均值

我们首先从最简单的概念出发,样本均值。在日常生活中,我们常用算数平均数来代表一组数据的“典型值”或“中心位置”。它是所有样本数据加起来的总和,除以样本的数量。

        假设我们有 n 个样本数据 x1,x2,…,xn,那么样本均值 \bar{x} 的计算公式是:

                \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i

       直观解释
  • 我们获得n个不同的数
  • 然后将它们相加
  • 获得一个值,除以它们的个数

样本均值告诉我们,数据的大致中心位置在哪个地方。


二、进一步刻画“差距”:从均值到方差

虽然样本均值给出了数据的中心位置,但它并没有告诉我们数据围绕这个中心的分布情况。为了描述这一点,我们引入了 方差标准差,这两个概念帮助我们量化数据点与均值之间的偏离程度。

偏差

  • 首先,我们可以计算每个数据点与均值的偏差,即每个数据点与样本均值的差:x_i - \bar{x}
  • 然而,偏差本身有正负之分,若直接求和会得到0(因为所有数据点与均值的偏差和为0)。为了避免这种情况,我们将偏差进行平方,得到 平方差

                                                                        (x_i - \bar{x})^2

通过平方差,我们能够避免正负抵消,并且放大偏差较大的数据点对整体结果的影响。

方差(最重要)

  • 将所有平方差加起来并求平均,就得到了 方差,它是描述样本数据——离散程度——的一个重要指标。样本方差的公式是(除以n-1是根据自由度进行的修正):

                                                s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

  • 方差越大,表示数据点离均值越远,数据的分散程度也越大;方差越小,则说明数据更集中,离均值较近。

标准差

  • 标准差是方差的平方根,和方差一样用于衡量数据的离散程度。它的单位和数据本身相同,因此在实际应用中通常使用标准差而不是方差。


三、从样本方差到常用统计分布

了解了样本均值、方差和标准差后,我们就进入了更高层次的统计推导。接下来,我们将看到如何利用样本数据的方差,推导出一些常见的统计分布。这些分布在统计推断和假设检验中具有广泛应用。


1. 卡方分布:为了求样本方差

卡方分布的引入主要是为了计算样本方差。

  • 假设我们从一个总体中抽取了 n 个样本,样本均值为 \bar{x},样本方差为 s^2
  • 已知总体的分布是正态分布:\quad z_i \sim N(\mu, \sigma),总体方差为\sigma^2
  • 我们希望通过样本方差来推断总体方差。

根据统计学原理,如果样本来自正态分布,总体方差 \sigma^2 可以通过样本方差 s^2 来估计。然而,样本方差 s^2 并不是正态分布,而是一个 卡方分布,这就是为什么它是一个抽样分布!

下面我们给出两个步骤,计算样本方差:

1. 标准化

每个样本数据 x_i​ 与总体均值 \mu 的偏差,可以通过除以总体标准差 \sigma 来标准化,得到一个标准正态分布的随机变量 z_i​:

                                                z_i = \frac{x_i - \mu}{\sigma}

  • 这些标准化后的随机变量 z_i​ 服从标准正态分布。
2. 平方和
  • 接下来,如果我们对每个标准化值平方,求和
  • 我们就得到了乘以常数倍 \frac{1}{\sigma^2} 的样本方差公式,这符合卡方标准正态平方和的定义,这就是一个 卡方分布!

                        ​​​​​​​        ​​​​​​​        ​​​​​​​        \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \sim \chi^2_{n}

  • 若用 \bar{x} 代替 \mu ,则符合自由度为 n-1的卡方分布(在运算 \bar{x} 时,已经用去一个自由度)        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                                                       

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​           \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \bar{x})^2 \sim \chi^2_{n-1}

它描述了样本方差的分布。因此,通过卡方分布,我们可以研究样本方差 s^2 的性质,并为后续的推导奠定基础。

3. 样本方差性质

样本方差 s^2 的计算公式是(考虑了 \bar{x} 消耗了自由度后的修正方差):

s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2

为了凑出标准化的形式,两边同除 \sigma^2 、同乘 n-1 ,

得到:

\frac{n-1}{\sigma^2}s^2 = \sum_{i=1}^{n} \frac{(x_i - \bar{x})^2}{\sigma^2} \sim \chi^2_{n-1}

去掉中间的推导过程,我们有结论:

\frac{n-1}{\sigma^2}s^2 \sim \chi^2_{n-1}

卡方分布用于推断样本方差的分布特性,并且在假设检验中有着重要作用。


2. t分布:总体方差未知时的标准化

在实际应用中,卡方分布常数项中,总体方差往往是未知的,我们只能依赖样本数据来进行估计。这时,我们需要用 样本标准差 s 来代替总体标准差 \sigma,并且用样本均值 \bar{x} 来代替总体均值 \mu。这样,我们就可以使用 t分布 来进行统计推断。

t分布的推导过程如下:

  • 假设总体均值为 \mu ,样本均值为 \bar{x} ,
  • 样本标准差为 s,样本量为 n,那么我们可以构造一个 t统计量

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​                        t = \frac{\bar{x} - \mu}{s / \sqrt{n}}

  • 这个统计量服从 t分布,自由度为 n−1:

                                                                t \sim t_{n-1}

t分布用于检验样本均值与总体均值之间的差异,尤其是在样本量较小的情况下,比正态分布更为适用。


3. F分布:比较多个样本方差

当我们需要比较两个或多个样本的方差时,F分布 是一个非常有用的工具。F分布是由两个 卡方分布 的比值构成的。

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        F = \frac{s_1^2 / \sigma_1^2}{s_2^2 / \sigma_2^2}

  • 其中,F \sim F(df_1, df_2)

F分布广泛用于 方差分析(ANOVA)中,用来检验不同组样本方差是否相等,或者检验模型的整体显著性。

四、总结

从最简单的算术平均数开始,我们逐步引入了方差和标准差来更精确地描述数据的分布特性。这些统计工具不仅帮助我们总结数据,还为我们提供了推断总体特性、检验假设的重要手段。

  • 样本均值:描述数据的中心位置。
  • 样本方差:描述数据的离散程度,衡量数据点与均值之间的“差距”。
  • 卡方分布:用于推断样本方差,并作为正态分布的方差估计的基础。
  • t分布:用于总体方差未知时检验样本均值与总体均值的差异。
  • F分布:用于比较两个或多个样本的方差。

这些概念和分布的推导为我们提供了强大的工具,帮助我们更好地理解和分析数据。

希望这篇博客能够帮助你从直观的角度理解统计学的基本概念,并为深入学习统计推断打下基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值