地图数据的简化与深入分析
1. 数据异常值判断
在分析数据时,我们首先得到了一系列标准化值,从怀俄明州每 724 人中有 1 人感染到华盛顿州每 1550 人中有 1 人感染。这引发了我们的思考,这些极端值是异常值还是在预期范围内呢?这里有两种关键方法来检验异常值:
- 使用箱线图(IQR 方法) :箱线图由 John Tukey 开发,用于直观展示数据分布。它通过绘制从第 25 百分位数到第 75 百分位数的箱体,这个距离称为四分位距(IQR)。然后从箱体延伸出长度为 1.5 倍 IQR 的线,超出这些线的数据点很可能是异常值。
R # requires objects: za.norm (5-8) # create a box plot of the count popbox <- boxplot(za.norm$count)
运行上述代码后,我们可以看到图中有明显的异常值点,上方有三个点,下方有两个点。我们可以通过 popbox$out 查看这些异常值,并在原始数据中查找对应的行。
R # requires objects: za.norm (5-8), popbox (5-9) # the values that are considered outliers print(popbox$out) # pull the rows from za.norm that have those values za.norm[za.norm$count %in% popbox$out, ]
结果显示,根据箱线图方法,哥伦比亚特区、犹他州、佛蒙特州、华
超级会员免费看
订阅专栏 解锁全文

5364

被折叠的 条评论
为什么被折叠?



