8、数据分布与标准差:理解数据特征的关键

数据分布与标准差:理解数据特征的关键

1. 标准差:数据离散程度的标准度量

在分析数据集时,集中趋势的度量(如均值)能帮助我们了解数据的大致情况。例如,对于刚毕业的大学生来说,选择一份平均起薪为 8 万美元的职业,相比平均起薪 5.5 万美元的职业,会让人感觉更安心。然而,这里缺少了一个重要因素,即薪资的分布情况。实际上,从事这两种职业的人很少能恰好拿到平均薪资。

为了衡量数据点围绕均值的离散程度,我们引入了标准差这一概念。其计算公式为:
[s = \sqrt{\frac{\sum_{i = 1}^{N} (x_i - \bar{x})^2}{N - 1}}]
这个公式看起来复杂,但其实有其逻辑。公式中的大写希腊字母 sigma(Σ)表示对所有数据点进行操作。“((x_i - \bar{x}))”表示将每个数据点的值减去均值。需要注意的是,标准差并非单个数据点与均值的平均距离,但功能类似。

以一组均值为 4.2 的数据为例,计算过程如下表所示:
| Value | Mean | Difference |
| — | — | — |
| 2 | 4.2 | -2.2 |
| 3 | 4.2 | -1.2 |
| 3 | 4.2 | -1.2 |
| 3 | 4.2 | -1.2 |
| 4 | 4.2 | -0.2 |
| 5 | 4.2 | 0.8 |
| 5 | 4.2 | 0.8 |
| 5 | 4.2 | 0.8 |
| 6 | 4.2 | 1.8 |
| 6 | 4.2 | 1.8 |

直观上,我们可能会直接取差值

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值