统计学中的数据测量与分析
在统计分析中,为了使样本划分不那么偏向男性,我们在调查中引入了一种偏向系统。乍一看,在随机抽样中引入这样的偏向系统似乎不是个好主意,但减轻抽样不平等,消除性别、种族、残疾等方面的系统性偏差更为重要。简单随机抽样中,每个人被选中的机会相同,但很可能会掩盖少数群体的声音和意见。所以,在抽样技术中引入这样的偏向系统是可行的。
1. 统计测量方法
当我们获得样本后,就需要对结果进行量化。比如,我们想了解员工的整体幸福感,或者判断公司员工的薪资差异情况。以下是一些常见的结果测量方法。
1.1 中心度量
中心度量用于定义数据集的中间或中心位置。有时我们需要对数据值进行概括,例如想知道西雅图的平均降雨量,或者欧洲男性的中位身高。这是一种概括大量数据的方式,便于向他人传达信息。
- 算术平均数 :通过将数据集中所有值相加,再除以数据值的数量得到。这是最常见的定义数据中心的方法,但存在缺陷。例如,计算
[11, 15, 17, 14]的平均数:
import numpy as np
np.mean([11, 15, 17, 14]) == 14.25
平均值为 14.25,所有值都与它比较接近。但如果引入新值 31:
np.mean([11, 15, 17, 14, 31]) == 17.6
新值 3
超级会员免费看
订阅专栏 解锁全文
3万+

被折叠的 条评论
为什么被折叠?



