R语言数据可视化-- boxplot 异常点选取原理讲解

最新推荐文章于 2025-10-17 17:43:47 发布

原创

最新推荐文章于 2025-10-17 17:43:47 发布 · 7.8k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据的可视化 #R #boxplot

本文介绍了R语言中boxplot用于数据异常点检测的原理。通过分析boxplot的构造，了解到异常点是根据Q1-1.5(Q3-Q1)和Q3+1.5(Q3-Q1)来确定的。通过IQR函数计算四分位距，并可以通过调整boxplot的参数来改变异常值的判断标准。展示如何通过设置参数隐藏或显示异常点。

本次详解boxplot原理，同时需要使用到《机械学习与R语言》中的数据包‘usedcars.csv’。可以到网上自行搜索下载or到我github里下载：https://github.com/HAI2018/MLwR/ 到第二版第二章，点进usedcars.csv -> 再点击 raw -> 右键另存为

Boxplot一直都是我们对数据异常点观测的一个简单且直接有效的方式，虽然它并不能详细告诉我们哪些点是异常点以及异常点的详细数据。但是boxplot却总能让我们很直观地了解数值变量的中心和分散程度。如下例所示：

读取usedcars.csv文档后，我们尝试画一下boxplot：

usedcars <- read.csv("usedcars.csv", stringsAsFactors = FALSE)
boxplot(usedcars$price, main="Boxplot of Used Car Prices",
        ylab="Price ($)", las=T)

画出的是price的boxplot图: