机器学习与R语言入门:概率统计与编程基础
1. 置信区间与假设检验
在数据分析中,置信区间和假设检验是两个重要的概念,它们帮助我们从样本数据中推断总体的特征。
1.1 置信区间
置信区间是一种用于估计总体参数的统计方法。以一个10年一次的人口普查调查为例,假设在2005年,我们从总体中重复选取样本量为1000的样本,样本均值 $\bar{x}$ 服从正态分布,总体均值为 $\mu$,标准误差为 $s / \sqrt{n}$。如果已知标准差 $\sigma$ 为1500美元,那么标准误差 $s_{\bar{x}}$ 为:
[ s_{\bar{x}} = \frac{\sigma}{\sqrt{n}} = \frac{1500}{\sqrt{1000}} \approx 47.4 ]
一般来说,置信区间的形式为“估计值 ± 误差范围”。对于95%的置信区间,它是均值加上或减去两倍的标准误差(也称为误差范围)。假设样本均值 $\bar{x}$ 为990美元,计算得到的标准差为47.4美元,那么置信区间为 (895.2, 1084.8),即 $990 \pm 2 \times 47.4$。如果我们重复选取多个样本,每个样本都会有不同的置信区间,但统计理论告诉我们,95%的情况下,置信区间会包含真实的总体均值 $\mu$。虽然还有其他更严格的置信区间,如99.7%,但95%的置信区间在实际应用中是一个黄金标准。
1.2 假设检验
假设检验有时也被称为显著性检验。尽管置信区间是总体估计的有力代表,但我们需要一个更稳健和正式的程序来测试和比较关于观测数据总体参数的假设。假设检验的应用非常广泛,从评估民意调查中样本的可靠性到确定