简化地图:数据异常检测与县级分析
1. 数据异常判断
在数据处理过程中,我们得到了一系列归一化值,从怀俄明州每 724 人中有 1 人感染,到华盛顿州每 1550 人中有 1 人感染。我们不禁思考,这是否意味着怀俄明州的居民比华盛顿州的居民更粗心?或者是否存在其他因素导致这种差异?更重要的是,这些极端值是异常值还是在正常预期范围内?
为了判断极端值是否为异常值,有两种关键方法:
- 使用箱线图(IQR 方法)
- 计算 z 分数
2. 使用箱线图查找异常值
箱线图由 John Tukey 开发,用于直观展示数据的分布情况。它通过绘制从第 25 百分位数到第 75 百分位数的箱体来表示数据的中间 50%,这个距离称为四分位距(IQR)。然后从箱体两端延伸出线条,长度为 1.5 倍的 IQR,超出这些线条范围的数据点很可能是异常值,用点表示。
以下是使用 R 语言创建箱线图的代码:
# requires objects: za.norm (5-8)
# create a box plot of the count
popbox <- boxplot(za.norm$count)
从箱线图中可以看到,上方有三个点,下方有两个点,这些点可能是异常值。我们可以通过查看 popbox$out 向量来获取这些异常值,并在原始数据中查找对应的行:
# requires objects: za.norm (5-8), p
超级会员免费看
订阅专栏 解锁全文
710

被折叠的 条评论
为什么被折叠?



