统计学基础:标准误差与置信区间详解
1. 统计学基本方程
在统计学中,一切本质上都可以归结为一个基本方程:
[outcome_i = model + error_i]
这个方程表明,我们观察到的数据可以通过选择拟合数据的模型加上一定的误差来预测。例如,当我们说均值是一个简单的统计模型时,意味着可以在上述方程中用“均值”替换“模型”。以统计讲师拥有的朋友数量为例,假设讲师 1 有 1 个朋友,而所有讲师的均值是 2.6,那么方程就变为:
[outcome_{lecturer 1} = 2.6 + \epsilon_{lecturer 1}]
由此可算出误差为 (1 - 2.6 = -1.6),将其代入方程得到 (1 = 2.6 - 1.6),即 (1 = 1)。这个通用方程贯穿整个统计学,许多概念最终都可以归结到这个简单的思想。
此外,方差和标准差体现了另一个基本概念:如何衡量模型的拟合优度。当我们评估一个模型(这里是均值)对数据的拟合程度时,通常会查看与模型的偏差,即平方误差之和,一般可以写成:
[deviation = \sum(observed - model)^2]
也就是说,我们通过比较观察到的数据和拟合的模型,然后将这些差异平方来评估模型。
2. 超越样本数据
我们已经了解了如何用统计模型拟合一组观察数据来总结这些数据,但通常我们希望超越手头的数据,对整个世界做出一般性的推断。例如,我们不仅想知道样本中的人对药物的反应,还想推断所有人对药物的反应;不仅想知道布莱顿的一些高街商店在圣诞节前利润增加,还想推断英国所有高街商店的情况。为了从样本数据进行一般性推断,我们首先要考虑的不是模型对样本
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



