数据分布与标准差:理解数据特征的关键
1. 标准差:数据离散程度的标准度量
在分析数据集时,集中趋势的度量(如均值)能帮助我们了解数据的大致情况。例如,对于刚毕业的大学生来说,选择一份平均起薪为 8 万美元的职业,相比平均起薪 5.5 万美元的职业,会让人感觉更安心。然而,这里缺少了一个重要因素,即薪资的分布情况。实际上,从事这两种职业的人很少能恰好拿到平均薪资。
为了衡量数据点围绕均值的离散程度,我们引入了标准差这一概念。其计算公式为:
[s = \sqrt{\frac{\sum_{i = 1}^{N} (x_i - \bar{x})^2}{N - 1}}]
这个公式看起来复杂,但其实有其逻辑。公式中的大写希腊字母 sigma(Σ)表示对所有数据点进行操作。“((x_i - \bar{x}))”表示将每个数据点的值减去均值。需要注意的是,标准差并非单个数据点与均值的平均距离,但功能类似。
以一组均值为 4.2 的数据为例,计算过程如下表所示:
| Value | Mean | Difference |
| — | — | — |
| 2 | 4.2 | -2.2 |
| 3 | 4.2 | -1.2 |
| 3 | 4.2 | -1.2 |
| 3 | 4.2 | -1.2 |
| 4 | 4.2 | -0.2 |
| 5 | 4.2 | 0.8 |
| 5 | 4.2 | 0.8 |
| 5 | 4.2 | 0.8 |
| 6 | 4.2 | 1.8 |
| 6 | 4.2 | 1.8 |
直观上,我们可能会直接取差值
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



