一个数理统计学习路径的矫正：从样本数字特征到抽样分布

『₣λ¥√≈üĐ』

已于 2024-11-28 10:48:42 修改

阅读量1.1k

点赞数 20

文章标签：学习机器学习算法

于 2024-11-26 16:09:04 首次发布

本文链接：https://blog.youkuaiyun.com/m0_72780379/article/details/144059826

版权

从直观的算数平均数开始，逐步引导到更复杂的“差距”刻画（即方差、标准差）以及最终推导出常用的统计分布。目的是让初学者更容易理解这个从直觉到严密数学推导的过程。

在统计学中，我们往往从一个样本的数据出发，试图推断总体的特性。为了更好地理解样本数据，我们首先需要对它们进行总结：

最简单的方式是计算 样本均值。
但这仅仅是一个开始，随着统计学的发展，我们逐渐引入了更精细的概念，如方差和 标准差，这些概念帮助我们更全面地描述样本数据的特性。
最终推导出一些重要的统计分布，例如 t分布、卡方分布 和 F分布。

本文将带你从最基本的算数平均数开始，逐步引导你理解如何使用平方差来刻画样本数据的“差距”，并最终通过这些工具推导出常见的统计分布，告别传统教科书先导入一大堆不知所云的抽样分布，再给出样本的数字特征的估计。

一、从算数平均数开始：计算样本均值

我们首先从最简单的概念出发，样本均值。在日常生活中，我们常用算数平均数来代表一组数据的“典型值”或“中心位置”。它是所有样本数据加起来的总和，除以样本的数量。

假设我们有 n 个样本数据 x1,x2,…,xn，那么样本均值 $\bar{x}$ 的计算公式是：

$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$

直观解释

我们获得n个不同的数
然后将它们相加
获得一个值，除以它们的个数

样本均值告诉我们，数据的大致中心位置在哪个地方。

二、进一步刻画“差距”：从均值到方差

虽然样本均值给出了数据的中心位置，但它并没有告诉我们数据围绕这个中心的分布情况。为了描述这一点，我们引入了方差和 标准差，这两个概念帮助我们量化数据点与均值之间的偏离程度。

偏差

首先，我们可以计算每个数据点与均值的偏差，即每个数据点与样本均值的差： $x_i - \bar{x}$
然而，偏差本身有正负之分，若直接求和会得到0（因为所有数据点与均值的偏差和为0）。为了避免这种情况，我们将偏差进行平方，得到 平方差：

$(x_i - \bar{x})^2$

通过平方差，我们能够避免正负抵消，并且放大偏差较大的数据点对整体结果的影响。

方差（最重要）

将所有平方差加起来并求平均，就得到了方差，它是描述样本数据——离散程度——的一个重要指标。样本方差的公式是（除以n-1是根据自由度进行的修正）：

$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$

方差越大，表示数据点离均值越远，数据的分散程度也越大；方差越小，则说明数据更集中，离均值较近。

标准差

标准差是方差的平方根，和方差一样用于衡量数据的离散程度。它的单位和数据本身相同，因此在实际应用中通常使用标准差而不是方差。

三、从样本方差到常用统计分布

了解了样本均值、方差和标准差后，我们就进入了更高层次的统计推导。接下来，我们将看到如何利用样本数据的方差，推导出一些常见的统计分布。这些分布在统计推断和假设检验中具有广泛应用。

1. 卡方分布：为了求样本方差

卡方分布的引入主要是为了计算样本方差。

假设我们从一个总体中抽取了 n 个样本，样本均值为 $\bar{x}$ ，样本方差为 $s^2$
已知总体的分布是正态分布： $\quad z_i \sim N(\mu, \sigma)$ ，总体方差为 $\sigma^2$
我们希望通过样本方差来推断总体方差。

根据统计学原理，如果样本来自正态分布，总体方差 $\sigma^2$ 可以通过样本方差 $s^2$ 来估计。然而，样本方差 $s^2$ 并不是正态分布，而是一个 卡方分布，这就是为什么它是一个抽样分布！

下面我们给出两个步骤，计算样本方差：

1. 标准化

每个样本数据 $x_i$ 与总体均值 $\mu$ 的偏差，可以通过除以总体标准差 $\sigma$ 来标准化，得到一个标准正态分布的随机变量 $z_i$ ：

$z_i = \frac{x_i - \mu}{\sigma}$

这些标准化后的随机变量 $z_i$ 服从标准正态分布。

2. 平方和

接下来，如果我们对每个标准化值平方，求和
我们就得到了乘以常数倍 $\frac{1}{\sigma^2}$ 的样本方差公式，这符合卡方标准正态平方和的定义，这就是一个 卡方分布！

 $\frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \sim \chi^2_{n}$

若用 $\bar{x}$ 代替 $\mu$ ,则符合自由度为 n-1的卡方分布（在运算 $\bar{x}$ 时，已经用去一个自由度）

$\frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \bar{x})^2 \sim \chi^2_{n-1}$

它描述了样本方差的分布。因此，通过卡方分布，我们可以研究样本方差 $s^2$ 的性质，并为后续的推导奠定基础。

3. 样本方差性质

样本方差 $s^2$ 的计算公式是（考虑了 $\bar{x}$ 消耗了自由度后的修正方差）：

$s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$ ；

为了凑出标准化的形式，两边同除 $\sigma^2$ 、同乘 $n-1$ ，

得到：

$\frac{n-1}{\sigma^2}s^2 = \sum_{i=1}^{n} \frac{(x_i - \bar{x})^2}{\sigma^2} \sim \chi^2_{n-1}$

去掉中间的推导过程，我们有结论：

$\frac{n-1}{\sigma^2}s^2 \sim \chi^2_{n-1}$

卡方分布用于推断样本方差的分布特性，并且在假设检验中有着重要作用。

2. t分布：总体方差未知时的标准化

在实际应用中，卡方分布常数项中，总体方差往往是未知的，我们只能依赖样本数据来进行估计。这时，我们需要用 样本标准差 $s$ 来代替总体标准差 $\sigma$ ，并且用样本均值 $\bar{x}$ 来代替总体均值 $\mu$ 。这样，我们就可以使用 t分布 来进行统计推断。

t分布的推导过程如下：

假设总体均值为 $\mu$ ，样本均值为 $\bar{x}$ ，
样本标准差为 s，样本量为 n，那么我们可以构造一个 t统计量：

$t = \frac{\bar{x} - \mu}{s / \sqrt{n}}$

这个统计量服从 t分布，自由度为 n−1：

$t \sim t_{n-1}$

t分布用于检验样本均值与总体均值之间的差异，尤其是在样本量较小的情况下，比正态分布更为适用。

3. F分布：比较多个样本方差

当我们需要比较两个或多个样本的方差时，F分布 是一个非常有用的工具。F分布是由两个 卡方分布 的比值构成的。

$F = \frac{s_1^2 / \sigma_1^2}{s_2^2 / \sigma_2^2}$

其中， $F \sim F(df_1, df_2)$

F分布广泛用于 方差分析（ANOVA）中，用来检验不同组样本方差是否相等，或者检验模型的整体显著性。

四、总结

从最简单的算术平均数开始，我们逐步引入了方差和标准差来更精确地描述数据的分布特性。这些统计工具不仅帮助我们总结数据，还为我们提供了推断总体特性、检验假设的重要手段。

样本均值：描述数据的中心位置。
样本方差：描述数据的离散程度，衡量数据点与均值之间的“差距”。
卡方分布：用于推断样本方差，并作为正态分布的方差估计的基础。
t分布：用于总体方差未知时检验样本均值与总体均值的差异。
F分布：用于比较两个或多个样本的方差。

这些概念和分布的推导为我们提供了强大的工具，帮助我们更好地理解和分析数据。

希望这篇博客能够帮助你从直观的角度理解统计学的基本概念，并为深入学习统计推断打下基础。