12、简化地图:数据异常检测与县级分析

简化地图:数据异常检测与县级分析

1. 数据异常判断

在数据处理过程中,我们得到了一系列归一化值,从怀俄明州每 724 人中有 1 人感染,到华盛顿州每 1550 人中有 1 人感染。我们不禁思考,这是否意味着怀俄明州的居民比华盛顿州的居民更粗心?或者是否存在其他因素导致这种差异?更重要的是,这些极端值是异常值还是在正常预期范围内?

为了判断极端值是否为异常值,有两种关键方法:
- 使用箱线图(IQR 方法)
- 计算 z 分数

2. 使用箱线图查找异常值

箱线图由 John Tukey 开发,用于直观展示数据的分布情况。它通过绘制从第 25 百分位数到第 75 百分位数的箱体来表示数据的中间 50%,这个距离称为四分位距(IQR)。然后从箱体两端延伸出线条,长度为 1.5 倍的 IQR,超出这些线条范围的数据点很可能是异常值,用点表示。

以下是使用 R 语言创建箱线图的代码:

# requires objects: za.norm (5-8)
# create a box plot of the count
popbox <- boxplot(za.norm$count)

从箱线图中可以看到,上方有三个点,下方有两个点,这些点可能是异常值。我们可以通过查看 popbox$out 向量来获取这些异常值,并在原始数据中查找对应的行:

# requires objects: za.norm (5-8), p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值