32、环境数据分析中的结果显著性评估-优快云博客

本文链接：https://blog.youkuaiyun.com/mars5/article/details/151202883

环境数据分析中的结果显著性评估

1. 引言

在数据分析中，我们常常花费大量时间从庞大的数据集中提取有意义的信息。然而，有时我们所认为的有意义的差异，可能仅仅是由数据中的随机噪声引起的。例如，在研究两个地理区域的某个重要参数时，发现它们存在差异，但进一步分析可能会发现这种差异只是数据噪声的结果，这无疑是令人失望的。不过，尽早发现这种情况总比被其他科学家公开批评要好。相反，如果我们能够证明差异并非由观测噪声导致，那么我们的研究结果就更有可能被同行所接受。

2. 拒绝零假设

由于噪声是随机过程，我们永远无法完全确定数据中的任何模式是否不是由观测噪声引起的。因为噪声可以呈现出任何形式，所以它有可能模仿出任何差异，无论差异的大小如何。我们所能做的就是评估差异由噪声引起的概率。如果差异由噪声引起的概率很小，那么差异是“真实”的概率就很高。这就引出了一种正式的显著性检验策略——零假设检验。

零假设通常表述为：差异是由随机过程引起的。如果能够以高概率拒绝零假设，那么就认为差异是显著的。通常，排除概率达到 95% 是最低标准。虽然 95% 听起来是一个很高的数字，但这意味着每 20 次中就会有一次对结果显著性做出错误的结论，这其实并不是一个很低的概率。在高风险情况下，需要更高的拒绝概率。对于正态分布误差的过程，95% 的置信度对应于 ±2σ，其中 σ² 是误差的方差，因此“两个标准差”常用来表示 95% 的置信度。

例如，在分析黑岩森林温度数据集的长期降温趋势时，估计的温度变化率为 -0.03°C/年，2σ 误差为 ±10⁻⁵°C/年。此时，合理的零假设是温度变化率与零的差异仅由观测噪声引起。由于 -0.03 距离零超过了 2σ，所以可以以超过 95% 的置信度拒绝零假设。这种分析依赖于被测试参数（与均值的距离）服从正态分布，以及我们对正态概率密度函数的理解（即 95% 的概率位于均值的 ±2σ 范围内）。

一般来说，从数据中计算得到的参数称为统计量。在上述例子中，被测试的统计量是均值与零的差异，它服从正态分布。为了评估其他类型的零假设，我们需要研究一些统计量，其对应的概率密度函数不如正态概率密度函数那么常见。

3. 总误差的分布

在数据分析问题中，一个重要的统计量是总误差 E。它定义为各个误差的平方和，每个误差由其方差加权，即 (E = \sum_{i = 1}^{N} e_{i}^{2})，其中 (e_{i} = \frac{d_{i}^{obs} - d_{i}^{pre}}{\sigma_{d_{i}}})。每个 (e_{i}) 都被假设为均值为零、方差为 1 的正态分布随机变量。由于误差 E 是从有噪声的数据中推导出来的，它本身也是一个随机变量，有自己的概率密度函数 (p(E))。由于 (e_{i}) 与 E 之间的关系是非线性的，所以 (p(E)) 不是正态分布。

3.1 单个误差的情况

首先考虑只有一个个体误差 (e) 的特殊情况，即 (E = e^{2})。由于在计算平方时 (e) 的符号无关紧要，所以我们只使用 (e) 的正态概率密度函数的非负值部分。对于非负的 (e)，其概率密度函数为：
[p(e) = \sqrt{\frac{2}{\pi}} \exp(-\frac{e^{2}}{2})]
这里我们设定 (e = 0) 且 (\sigma_{e}^{2} = 1)。注意，这个概率密度函数是同时定义正负值的概率密度函数的两倍。通过规则 (p(E) = p(e)|\frac{de}{dE}|)（式 3.8），可以将 (p(e)) 转换为 (p(E))，其中 (e = \sqrt{E}) 且 (\frac{de}{dE} = \frac{1}{2\sqrt{E}})，得到：
[p(E) = \frac{1}{\sqrt{2\pi E}} \exp(-\frac{E}{2})]
这个公式与均匀分布随机变量的公式有些相似，两者在原点处都有平方根奇点。

3.2 两个误差的情况

接下来考虑稍微复杂一些的情况 (E = e_{1}^{2} + e_{2}^{2})，其中 (e_{1}) 和 (e_{2}) 不相关，它们的联合概率密度函数为：
[p(e_{1}, e_{2}) = p(e_{1})p(e_{2}) = \frac{2}{\pi} \exp(-\frac{e_{1}^{2} + e_{2}^{2}}{2})]
为了计算 (p(E))，我们首先将 E 与另一个变量（例如 (\theta)）配对，定义联合概率密度函数 (p(E, \theta))，然后对 (\theta) 进行积分，将联合概率密度函数简化为单变量概率密度函数 (p(E))。我们在选择 (\theta) 的函数形式上有很大的灵活性。由于 (E = e_{1}^{2} + e_{2}^{2}) 与极坐标公式 (r^{2} = x^{2} + y^{2}) 相似，我们使用 (\theta = \tan^{-1}(\frac{e_{1}}{e_{2}}))，类似于极角。通过反解 (e_{1}(E, \theta)) 和 (e_{2}(E, \theta)) 得到：
[e_{1} = \sqrt{E} \sin(\theta)]
[e_{2} = \sqrt{E} \cos(\theta)]
雅可比行列式 (J(E, \theta)) 为：
[J(E, \theta) = \begin{vmatrix}
\frac{\partial e_{1}}{\partial E} & \frac{\partial e_{2}}{\partial E} \
\frac{\partial e_{1}}{\partial \theta} & \frac{\partial e_{2}}{\partial \theta}
\end{vmatrix} = \begin{vmatrix}
\frac{1}{2\sqrt{E}} \sin(\theta) & \frac{1}{2\sqrt{E}} \cos(\theta) \
\sqrt{E} \cos(\theta) & -\sqrt{E} \sin(\theta)
\end{vmatrix} = -\frac{1}{2}]
联合概率密度函数为：
[p(E, \theta) = p(e_{1}(E, \theta), e_{2}(E, \theta)) |J(E, \theta)| = \frac{1}{\pi} \exp(-\frac{E}{2})]
注意，该概率密度函数在极角 (\theta) 上是均匀的。最后，通过对极角 (\theta) 进行积分得到单变量概率密度函数 (p(E))：
[p(E) = \int_{0}^{\frac{\pi}{2}} p(E, \theta) d\theta = \frac{1}{2} \exp(-\frac{E}{2})]
积分仅在 ((e_{1}, e_{2})) 平面的一个象限内进行，因为所有的 (e_{i}) 都是非负的。

3.3 一般情况

一般情况下，总误差 (E_{N} = \sum_{i = 1}^{N} e_{i}^{2})。在文献中，常用符号 (\chi_{N}^{2}) 代替 (E_{N})，其概率密度函数称为具有 N 个自由度的卡方概率密度函数，公式为：
[p(\chi_{N}^{2}) = \frac{1}{2^{\frac{N}{2}} (\frac{N}{2} - 1)!} (\chi_{N}^{2})^{\frac{N}{2} - 1} \exp(-\frac{\chi_{N}^{2}}{2})]
卡方概率密度函数的均值为 N，方差为 2N。在脚本中，可以使用以下代码计算：

% edama_12_02: chi-squared p.d.f.
...
pX2 = chi2pdf(X2,N); % chi-squared p.d.f.

# edapy_12_02: chi-squared p.d.f.
...
import scipy.stats as stats
pX2 = eda_cvec(stats.chi2.pdf(X2,N)); # chi-squared p.d.f.

4. 四个重要的概率密度函数

许多（但不是全部）假设检验可以使用以下四个概率密度函数来完成，每个函数对应于误差 (e) 的不同函数形式，其中 (e) 被假定为不相关、正态分布、均值为零且方差为 1：
1. (p(Z))，其中 (Z = e_{i})，这是单个变量 (e_{i}) 的正态概率密度函数。任何均值为 (d_{i})、方差为 (\sigma_{d_{i}}^{2}) 的正态分布变量 (d_{i}) 都可以通过变换 (Z = \frac{d_{i} - \overline{d_{i}}}{\sigma_{d_{i}}}) 转换为均值为零、方差为 1 的变量。
2. (p(\chi_{N}^{2}))，其中 (\chi_{N}^{2} = \sum_{i = 1}^{N} e_{i}^{2})，即卡方概率密度函数，前面已经详细讨论过。
3. (p(t_{N}))，其中 (t_{N} = \frac{e_{i}}{\sqrt{\frac{1}{N - 1} \sum_{j = 1}^{N} e_{j}^{2}}})，称为学生 t 概率密度函数。它是一个正态分布变量与 N 个正态分布变量平方和的平方根的比值，其函数形式为：
[p(t_{N}) = \frac{(\frac{N + 2}{2} - 1)!}{\sqrt{N\pi} (\frac{N}{2} - 1)!} (1 + \frac{t_{N}^{2}}{N})^{-\frac{N + 1}{2}}]
学生 t 概率密度函数的均值为零，当 (N > 2) 时，方差为 (\frac{N}{N - 1})（当 (N \leq 2) 时，方差未定义）。它看起来与正态概率密度函数有些相似，但尾部更长，即随着与均值的距离增加，它的下降速度比正态概率密度函数慢得多。在脚本中，可以使用以下代码计算：

% edama_12_03: student t p.d.f.
...
pt = tpdf(t,N);

# edapy_12_03: student t p.d.f.
...
import scipy.stats as stats
pt = eda_cvec(stats.t.pdf(t,N)); # t p.d.f.

(p(F_{N,M}))，其中 (F_{N,M} = \frac{\frac{1}{N} \sum_{i = 1}^{N} e_{i}^{2}}{\frac{1}{M} \sum_{j = 1}^{M} e_{j}^{2}})，称为 Fisher - Snedecor F 概率密度函数。它是两组不同随机变量平方和的比值，其函数形式不能用初等函数表示。其均值和方差分别为：
[\overline{F} = \frac{M}{M - 2}]
[\sigma_{F}^{2} = \frac{2M^{2} (M + N - 2)}{N (M - 2)^{2} (M - 4)}]
当 (M \to \infty) 时，F 概率密度函数的均值趋近于 1。对于较小的 M 和 N 值，F 概率密度函数偏向于较小的 F 值；当 M 和 N 值较大时，它在 F = 1 附近更加对称。在脚本中，可以使用以下代码计算：

% edama_12_04: F p.d.f.
...
pF = fpdf(F,N,M);

# edapy_12_04: F p.d.f.
...
import scipy.stats as stats
pF = eda_cvec(stats.f.pdf(F,N,M));

5. 常见假设检验场景的案例研究

5.1 案例背景

假设我们正在进行一项研究，需要测量 10 - 1000nm 范围内的颗粒（如气溶胶）大小。我们购买了一台能够测量颗粒直径的实验室仪器，制造商声称该仪器校准得非常好，颗粒直径将精确地围绕其真实均值分布，并且任何单次测量的方差为 (\sigma_{d}^{2} = 1 nm^{2})。我们通过测量 N = 25 个专门购买的校准颗粒（每个直径恰好为 100nm）来测试该仪器，并使用这些数据计算了各种有用的统计量，几周后，我们使用另一组校准颗粒重复了测试。以下是两次校准测试得到的统计量：
| 统计量 | 校准测试 1 | 校准测试 2 | 测试间比较 |
| — | — | — | — |
| 1. N | 25 | 25 | - |
| 2. (d_{true}) | 100 | 100 | - |
| 3. (d_{est} = \frac{1}{N} \sum_{i = 1}^{N} d_{i}) | 100.055 | 99.951 | - |
| 4. ((\sigma_{d}^{true})^{2}) | 1 | 1 | - |
| 5. ((\sigma_{d}^{est})^{2} = \frac{1}{N} \sum_{i = 1}^{N} (d_{i}^{obs} - d_{true})^{2}) | 0.876 | 0.974 | - |
| 6. ((\sigma_{d}^{est’})^{2} = \frac{1}{N - 1} \sum_{i = 1}^{N} (d_{i}^{obs} - d_{est})^{2}) | 0.910 | 1.012 | - |
| 7. (Z_{est} = \frac{d_{est} - d_{true}}{\frac{\sigma_{d}^{true}}{\sqrt{N}}}) | 0.278 | 0.243 | - |
| 8. (P(|Z| \geq |Z_{est}|)) | 0.780 | 0.807 | - |
| 9. (\chi_{est}^{2} = \sum_{i = 1}^{N} \frac{(d_{i}^{obs} - d_{true})^{2}}{\sigma_{d_{i}}^{2}}) | 21.921 | 24.353 | - |
| 10. (P(\chi^{2} \geq \chi_{est}^{2})) | 0.640 | 0.499 | - |
| 11. (t_{est} = \frac{d_{est} - d_{true}}{\frac{\sigma_{d}^{est}}{\sqrt{N}}}) | 0.297 | 0.247 | - |
| 12. (P(|t_{25}| \geq |t_{est}|)) | 0.768 | 0.806 | - |
| 13. (Z_{est} = \frac{d_{est1} - d_{est2}}{\sqrt{\frac{(\sigma_{d1}^{true})^{2}}{N_{1}} + \frac{(\sigma_{d2}^{true})^{2}}{N_{2}}}}) | 0.368 | - | - |
| 14. (P(|Z| \geq |Z_{est}|)) | 0.712 | - | - |
| 15. (t_{est} = \frac{d_{est1} - d_{est2}}{\sqrt{\frac{(\sigma_{d1}^{est’})^{2}}{N_{1}} + \frac{(\sigma_{d2}^{est’})^{2}}{N_{2}}}}) | 0.376 | - | - |
| 16. (M = \frac{(\frac{(\sigma_{d1}^{est’})^{2}}{N_{1}} + \frac{(\sigma_{d2}^{est’})^{2}}{N_{2}})^{2}}{\frac{(\frac{(\sigma_{d1}^{est’})^{2}}{N_{1}})^{2}}{N_{1} - 1} + \frac{(\frac{(\sigma_{d2}^{est’})^{2}}{N_{2}})^{2}}{N_{2} - 1}}) | 48 | - | - |
| 17. (P(|t_{M}| \geq |t_{est}|)) | 0.707 | - | - |
| 18. (F_{est} = \frac{\chi_{1}^{2} / N_{1}}{\chi_{2}^{2} / N_{2}}) | 1.110 | - | - |
| 19. (P(F \leq \frac{1}{F_{est}} \text{ 或 } F \geq F_{est})) | 0.794 | - | - |

5.2 问题分析

5.2.1 问题 1：校准是否正确？

由于测量噪声的存在，即使仪器校准完美，校准颗粒的估计平均直径 (d_{est}) 也会与真实值 (d_{true}) 略有偏差。因此，零假设是观测到的平均颗粒大小与真实值的偏差是由观测误差引起的（而不是校准存在偏差）。如果数据服从正态分布，那么它们的均值也服从正态分布，且方差会缩小为原来的 (\frac{1}{\sqrt{N}})。统计量 (Z_{est}) 量化了观测均值与真实均值的差异，它服从均值为零、方差为 1 的正态分布。第一次测试中 (Z_{est} = 0.278)，第二次测试中 (Z_{est} = 0.243)。关键问题是这样大小或更大的 (Z) 值出现的频率如何。只有当它们极其罕见时，才能拒绝零假设。这里我们进行双侧检验，即考虑 (Z) 的绝对值。我们发现第一次测试中 (P(|Z| \geq |Z_{est}|) = 0.78)，第二次测试中为 0.81，这两个值都远大于 0.05，所以不能拒绝零假设。在脚本中，可以使用以下代码计算该概率：

% edama_12_06: Z and chi-squared tests of particle size data
...
Po=1-(normcdf(abs(Z),0,1)-normcdf(-abs(Z),0,1));

# edapy_12_06:, Z and chi-squared tests of particle size data
...
import scipy.stats as stats
Po = 1.0-(stats.norm.cdf(abs(Z),0.0,1.0)-
stats.norm.cdf(-abs(Z),0.0,1.0));

5.2.2 问题 2：方差是否在规格范围内？

同样由于测量噪声，即使仪器正常工作，校准颗粒直径的估计方差 ((\sigma_{d}^{est})^{2}) 也会与真实值 ((\sigma_{d}^{true})^{2}) 略有偏差。因此，零假设是观测到的偏差是由随机波动引起的（而不是仪器的噪声比规定的更大）。统计量 (\chi_{est}^{2}) 服从 25 个自由度的卡方分布，第一次测试中 (\chi_{est}^{2} = 21.9)，第二次测试中为 24.4。我们关心的是方差是否比制造商规定的更差，所以进行单侧检验，即计算值大于 (\chi_{est}^{2}) 的概率。我们发现第一次测试中 (P(\chi^{2} > \chi_{est}^{2}) = 0.64)，第二次测试中为 0.50，这两个值都远大于 0.05，所以不能拒绝零假设。在脚本中，可以使用以下代码计算该概率：

% edama_12_06: Z and chi-squared tests of particle size data
...
Po=1-chi2cdf(X2,N);

# edapy_12_06:, Z and chi-squared tests of particle size data
...
import scipy.stats as stats
Po=1.0-stats.chi2.cdf(X2,N);

5.2.3 问题 1 重新审视：校准是否正确？

如果制造商没有给出方差，我们就无法计算 (Z)，因为它依赖于真实方差 ((\sigma_{d}^{true})^{2})。但我们可以从数据中估计方差 ((\sigma_{d}^{est})^{2} = \frac{1}{N} \sum_{i = 1}^{N} (d_{i} - d_{true})^{2})。然而，由于这个估计值是一个随机变量，不能用于 (Z) 的公式中，否则 (Z) 将不再服从正态分布。这样的统计量将服从 t 分布，推导如下：
[t = \frac{d_{est} - d_{true}}{\sigma_{d}^{est}} = \frac{d_{est} - d_{true}}{\frac{1}{\sqrt{N}} \sqrt{\frac{1}{N} \sum_{i = 1}^{N} (d_{i} - d_{true})^{2}}} = \frac{\frac{d_{est} - d_{true}}{\frac{\sigma_{d}^{true}}{\sqrt{N}}}}{\sqrt{\frac{1}{N} \sum_{i = 1}^{N} (\frac{d_{i} - d_{true}}{\sigma_{d}^{true}})^{2}}} = \frac{e}{\sqrt{\frac{1}{N} \sum_{i = 1}^{N} e_{i}^{2}}}]
在我们的案例中，第一次测试中 (t_{est} = 0.294)，第二次测试中为 0.247。零假设与之前相同，我们再次进行双侧检验，发现第一次测试中 (P(|t| > |t_{est}|) = 0.77)，第二次测试中为 0.81，这两个概率都远大于 0.05，所以不能拒绝零假设。在脚本中，可以使用以下代码计算该概率：

% edama_12_07, statistical tests of particle size data
...
PtA = 1 - (tcdf(abs(tA),NA)-tcdf(-abs(tA),NA));

# edapy_12_07: statistical tests of particle size data
...
import scipy.stats as stats
PtA = 1.0 - (stats.t.cdf(abs(tA),NA)-
stats.t.cdf(-abs(tA),NA));

5.2.4 问题 3：两次测试之间的校准是否发生了变化？

零假设是两次测试的均值差异是由随机变化引起的。统计量 (d_{est1} - d_{est2}) 是两个正态分布随机变量的线性组合，所以它也服从正态分布，其方差为两个项的方差之和。我们计算得到 (Z_{est} = 0.368)，(P(|Z| > |Z_{est}|) = 0.712)，这个概率远大于 0.05，所以不能排除零假设。

如果真实方差 ((\sigma_{d1}^{true})^{2}) 和 ((\sigma_{d2}^{true})^{2}) 不可用，我们需要从数据中估计方差。根据真实均值是否已知，可以采用不同的估计方法：
[\sigma_{d1}^{true} = \begin{cases}
\frac{1}{N} \sum_{i = 1}^{N} (d_{i}^{obs} - d_{true})^{2}, & \text{如果 } d_{true} \text{ 已知} \
\frac{1}{N - 1} \sum_{i = 1}^{N} (d_{i}^{obs} - d_{est})^{2}, & \text{否则}
\end{cases}]
但这些估计值是随机变量，不能用于计算 (Z_{est})，否则它将不再服从正态分布。我们可以使用估计方差创建类似的统计量 (t_{est})，但它只是近似服从 t 分布，因为两个 t 分布变量的差并不完全服从 t 分布。通过定义有效自由度 (M) 可以改善这种近似。在我们的案例中，(t_{est} = 0.376)，(M = 48)，(P(|t_{M}| \geq |t_{est}|) = 0.71)，远大于 0.05，所以不能拒绝零假设。

5.2.5 问题 4：两次测试之间的方差是否发生了变化？

第一次测试的估计方差为 0.876，第二次测试为 0.974。零假设是这些估计值之间的差异是由随机变化引起的。统计量 (F_{est}) 定义为两组测量值平方和的比值，因此与它们的估计方差的比值成正比。在我们的案例中，(F_{est} = 1.11)。(F > 1) 表示方差似乎变大（变差），(F < 1) 表示方差似乎变小（变好）。由于 (F) 是通过比值定义的，(\frac{1}{F_{est}}) 表示与 (F_{est}) 相反的情况。因此，我们需要进行双侧检验，即计算 (P(F \leq \frac{1}{F_{est}} \text{ 或 } F \geq F_{est}))，在我们的案例中该值为 0.79，远大于 0.05，所以不能拒绝零假设。

综上所述，通过对这些统计量的分析和假设检验，我们发现数据并没有违反制造商的规格，统计测试也证实了这一点。在实际数据分析中，我们可以根据不同的情况选择合适的统计量和检验方法，以评估数据的显著性和可靠性。

6. 假设检验流程总结

为了更清晰地展示假设检验的过程，我们可以将上述案例中的步骤总结为以下流程图：

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px

    A([开始]):::startend --> B(陈述零假设):::process
    B --> C(选择合适的统计量):::process
    C --> D{统计量值是否大概率小?}:::decision
    D -->|是| E(不能拒绝零假设):::process
    D -->|否| F(拒绝零假设):::process
    E --> G(结束分析):::process
    F --> H(结果显著):::process
    H --> G
    G --> I([结束]):::startend

这个流程图展示了假设检验的基本步骤：
1. 开始分析，明确要解决的问题。
2. 陈述零假设，即假设差异是由随机过程引起的。
3. 根据问题的性质和数据的特点，选择合适的统计量（如 (Z)、(t)、(\chi^{2})、(F) 等）。
4. 判断统计量的值是否大概率小，如果是，则不能拒绝零假设；否则，拒绝零假设。
5. 根据判断结果得出结论，结束分析。

7. 不同概率密度函数的应用场景总结

不同的概率密度函数在假设检验中有不同的应用场景，我们可以总结如下表：
| 概率密度函数 | 统计量定义 | 应用场景 |
| — | — | — |
| (p(Z)) | (Z = e_{i}) | 当数据的方差已知，检验随机变量的均值与规定值的差异是否由随机波动引起（Z 检验） |
| (p(\chi_{N}^{2})) | (\chi_{N}^{2} = \sum_{i = 1}^{N} e_{i}^{2}) | 检验随机变量的方差与规定值的差异是否由随机波动引起（卡方检验） |
| (p(t_{N})) | (t_{N} = \frac{e_{i}}{\sqrt{\frac{1}{N - 1} \sum_{j = 1}^{N} e_{j}^{2}}}) | 当数据的方差未知，检验随机变量的均值与规定值的差异是否由随机波动引起（t 检验）；检验两个随机变量的均值差异是否由随机波动引起（t 检验） |
| (p(F_{N,M})) | (F_{N,M} = \frac{\frac{1}{N} \sum_{i = 1}^{N} e_{i}^{2}}{\frac{1}{M} \sum_{j = 1}^{M} e_{j}^{2}}) | 检验两个随机变量的方差差异是否由随机波动引起（F 检验） |

通过这个表格，我们可以更清晰地了解不同概率密度函数在假设检验中的应用，根据具体问题选择合适的检验方法。

8. 注意事项和进一步思考

8.1 注意事项

样本量的影响 ：在进行假设检验时，样本量 (N) 对结果有重要影响。一般来说，样本量越大，统计量的估计越准确，检验的功效也越高。例如，在 t 分布中，当 (N) 较小时，t 分布的尾部较长，与正态分布差异较大；当 (N) 增大时，t 分布逐渐趋近于正态分布。
检验方法的选择 ：要根据数据的特点和问题的性质选择合适的检验方法。例如，如果数据的方差已知，优先选择 Z 检验；如果方差未知，则选择 t 检验。同时，要注意检验的前提条件，如数据是否服从正态分布、样本是否独立等。
单侧检验和双侧检验 ：根据实际问题的需求，选择单侧检验或双侧检验。单侧检验关注差异的方向（如只关心方差是否变大），双侧检验则不考虑差异的方向（如只关心均值是否与规定值不同）。

8.2 进一步思考

多重比较问题 ：在实际研究中，可能会进行多个假设检验。当进行多个检验时，犯第一类错误（拒绝了正确的零假设）的概率会增加。例如，进行 20 个独立的假设检验，每个检验的显著性水平为 0.05，那么至少有一个检验犯第一类错误的概率会超过 0.05。可以采用 Bonferroni 校正等方法来控制多重比较的错误率。
非参数检验 ：上述假设检验方法大多基于数据服从正态分布的假设。当数据不满足正态分布时，可以考虑使用非参数检验方法，如 Wilcoxon 符号秩检验、Mann - Whitney U 检验等。这些方法不依赖于数据的分布形式，具有更广泛的适用性。