13、R语言数据可视化：箱线图、克利夫兰点图与plot函数的应用

最新推荐文章于 2025-11-16 15:45:53 发布

原创最新推荐文章于 2025-11-16 15:45:53 发布 · 53 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#R语言 #数据可视化 #箱线图

R语言新手入门指南专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

R语言数据可视化：箱线图、克利夫兰点图与plot函数的应用

在数据可视化领域，选择合适的图形工具对于准确理解数据至关重要。本文将详细介绍R语言中箱线图、克利夫兰点图以及plot函数的使用方法和应用场景，通过实际案例展示如何利用这些工具进行数据探索和分析。

1. 箱线图（Boxplot）

箱线图是一种常用的可视化工具，尤其适用于处理连续数值响应变量和分类解释变量的情况。它的主要作用有三个方面：检测异常值、展示数据分布的异质性以及解释变量的影响。

1.1 猫头鹰数据的箱线图

以猫头鹰研究数据集为例，研究人员观察了雏鸟对父母存在的反应。数据包含了27个巢穴的样本，记录了父母带来猎物时雏鸟的乞食行为。变量 ArrivalTime 表示父母带猎物到达栖息处的时间，“Nestling negotiation”表示每个巢穴的平均叫声数量。

在进行复杂统计分析之前，创建箱线图可以帮助我们初步了解数据。以下是创建猫头鹰雏鸟协商数据箱线图的代码：

setwd("C:/RBook/")
Owls <- read.table(file = "Owls.txt", header = TRUE)
boxplot(Owls$NegPerChick)

生成的箱线图（图7.4）显示有五个潜在异常值，需要进一步调查。

为了探究父母性别、食物处理以及它们之间的交互作用对雏鸟协商的影响，我们可以使用以下代码创建不同条件下的箱线图：

par(mfrow = c(2,2), mar = c(3, 3, 2, 1))
boxplot(NegPerChick ~ SexParent, data = Owls)
boxplot(NegPerChick ~ FoodTreatment, data = Owls)
boxplot(NegPerChick ~ SexParent * FoodTreatment, data = Owls)
boxplot(NegPerChick ~ SexParent * FoodTreatment, names = c("F/Dep", "M/Dep", "F/Sat", "M/Sat"), data = Owls)

结果表明可能存在食物处理效应，但交互作用不明确。

当处理大量分类变量时，标签显示可能会成为问题。例如，在绘制按巢穴分类的雏鸟协商箱线图时，由于巢穴名称较长，直接绘制会导致部分标签无法显示。我们可以通过以下代码解决这个问题：

par(mar = c(2, 2, 3, 3))
boxplot(NegPerChick ~ Nest, data = Owls, axes = FALSE, ylim = c (-3, 8.5))
axis(2, at = c(0, 2, 4, 6, 8))
text(x = 1:27, y = -2, labels = levels(Owls$Nest), cex = 0.75, srt = 65)

该代码创建了一个没有水平轴的箱线图，并将标签以小字体、倾斜的方式放置在相应箱线图下方。

1.2 底栖生物数据的箱线图

在海洋底栖生物数据集中，记录了九个海滩的物种丰富度。由于每个海滩只有五个观测值，为了在箱线图中显示每个海滩的样本大小信息，我们可以采用以下步骤：
首先，计算每个海滩的样本大小：

setwd("C:/RBook/")
Benthic <- read.table(file = "RIKZ2.txt", header = TRUE)
Bentic.n <- tapply(Benthic$Richness, Benthic$Beach, FUN = length)

然后，创建箱线图：

boxplot(Richness ~ Beach, data = Benthic, col = "grey", xlab = "Beach", ylab = "Richness")

最后，将样本大小添加到箱线图中：

BP.info <- boxplot(Richness ~ Beach, data = Benthic, col = "grey", xlab = "Beach", ylab = "Richness")
BP.midp <- BP.info$stats[2, ] + (BP.info$stats[4, ] - BP.info$stats[2,]) / 2
text(1:9, BP.midp, Bentic.n, col = "white", font = 2)

通过这些步骤，我们可以在箱线图中清晰地看到每个海滩的样本大小。

2. 克利夫兰点图（Cleveland Dotplots）

克利夫兰点图是检测异常值的优秀工具。以鹿数据集为例，研究目的是评估鹿体内寄生虫数量与鹿体长之间的关系。在进行分析之前，我们可以使用克利夫兰点图检查数据集中连续变量的异常值。

以下是创建鹿体长克利夫兰点图的代码：

setwd("C:/RBook/")
Deer <- read.table("Deer.txt", header = TRUE)
dotchart(Deer$LCT, xlab = "Length (cm)", ylab = "Observation number")

从图中可以看出，大多数鹿的体长约为150厘米，但有三只鹿的体长明显较小（约80厘米）。

我们还可以根据分类变量对观测值进行分组，以进一步探索数据。例如，按性别分组绘制体长的克利夫兰点图：

Isna <- is.na(Deer$Sex)
dotchart(Deer$LCT[!Isna], groups = factor(Deer$Sex[!Isna]), xlab = "Length (cm)", ylab = "Observation number grouped by sex")

在这个过程中，需要注意处理缺失值，否则会导致绘图函数出错。

2.1 向克利夫兰点图添加均值

当样本量较小时，克利夫兰点图是箱线图的一个很好的替代方案。以底栖生物数据为例，我们可以在克利夫兰点图中添加每个海滩的均值，以更直观地展示数据特征。

setwd("C:/RBook/")
Benthic <- read.table(file = "RIKZ2.txt", header = TRUE)
Benthic$fBeach <- factor(Benthic$Beach)
par(mfrow = c(1, 2))
dotchart(Benthic$Richness, groups = Benthic$fBeach, xlab = "Richness", ylab = "Beach")
Bent.M <- tapply(Benthic$Richness, Benthic$Beach, FUN = mean)
dotchart(Benthic$Richness, groups = Benthic$fBeach, gdata = Bent.M, gpch = 19, xlab = "Richness", ylab = "Beach")
legend("bottomright", c("values", "mean"), pch = c(1, 19), bg = "white")

添加均值后的点图可以清晰地显示出至少一个“可疑”观测值。

3. plot函数

3.1 通用plot函数

plot函数是R语言中最常用的绘图命令，它能够根据输入对象的类型自动选择合适的绘图方法。要查看plot函数可用的方法，可以使用以下代码：

methods(plot)

例如，在进行主成分分析（PCA）后，使用plot函数可以自动调用相应的绘图方法来显示结果。

以底栖生物数据集为例，以下代码将创建一个按海滩分类的物种丰富度箱线图：

setwd("C:/RBook/")
Benthic <- read.table(file = "RIKZ2.txt", header = TRUE)
Benthic$fBeach <- factor(Benthic$Beach)
plot(Benthic$Richness ~ Benthic$fBeach)

这里，plot函数根据输入的公式自动生成了箱线图。

3.2 plot函数的更多选项

plot函数有许多额外的参数可以用来添加更多的图形细节。以下是一些常用参数及其作用的表格：
| 参数 | 作用 |
| ---- | ---- |
| main | 为图形添加标题 |
| xlab, ylab | 为x轴和y轴添加标签 |
| xlim, ylim | 设置坐标轴的范围 |
| log | 创建对数坐标轴，如log=”x”, log=”y”, log=”xy” |
| type | 指定绘图类型，如”p”（点）、”l”（线）、”b”（点线连接）等 |

以下是使用这些参数的示例代码：

# 创建散点图并添加线性回归直线
plot(y = Benthic$Richness, x = Benthic$NAP, xlab = "Mean high tide (m)", ylab = "Species richness", main = "Benthic data")
M0 <- lm(Richness ~ NAP, data = Benthic)
abline(M0)

# 设置坐标轴范围
plot(y = Benthic$Richness, x = Benthic$NAP, xlab = "Mean high tide (m)", ylab = "Species richness", xlim = c(-3, 3), ylim = c(0,20))

# 不显示坐标轴
plot(y = Benthic$Richness, x = Benthic$NAP, type = "n", axes = FALSE, xlab = "Mean high tide", ylab = "Species richness")
points(y = Benthic$Richness, x = Benthic$NAP)

通过这些参数，我们可以根据需要定制图形，以更好地展示数据。

综上所述，箱线图、克利夫兰点图和plot函数在R语言数据可视化中都有各自的优势和应用场景。合理运用这些工具，可以帮助我们更深入地理解数据，为后续的数据分析和建模提供有力支持。

mermaid流程图：

graph LR
    A[选择数据] --> B{选择图形工具}
    B -->|连续数值与分类变量| C[箱线图]
    B -->|检测异常值| D[克利夫兰点图]
    B -->|通用绘图| E[plot函数]
    C --> F[分析数据特征]
    D --> F
    E --> F
    F --> G[得出结论]

通过以上介绍，你可以根据不同的数据类型和分析目的，灵活选择合适的可视化工具，从而更好地探索和理解数据。希望这些内容对你在R语言数据可视化方面有所帮助。

R语言数据可视化：箱线图、克利夫兰点图与plot函数的应用

4. 实际应用案例分析

为了更深入地理解和掌握上述可视化工具的应用，我们来看几个实际的案例分析。

4.1 农业数据案例

假设我们有一份农业数据集，记录了不同品种的农作物在不同施肥量下的产量。我们可以使用箱线图来比较不同品种农作物的产量分布情况，以及施肥量对产量的影响。

首先，读取数据：

setwd("C:/RBook/")
Agriculture <- read.table(file = "Agriculture.txt", header = TRUE)

然后，创建按品种分类的产量箱线图：

boxplot(Yield ~ Variety, data = Agriculture)

接着，创建按施肥量和品种交互作用的箱线图：

par(mfrow = c(2,2))
boxplot(Yield ~ Fertilizer, data = Agriculture)
boxplot(Yield ~ Variety * Fertilizer, data = Agriculture)

通过这些箱线图，我们可以直观地看到不同品种农作物的产量差异，以及施肥量对产量的影响趋势。

4.2 医疗数据案例

在医疗数据集中，我们可能关注患者的年龄、性别、疾病类型和治疗效果之间的关系。可以使用克利夫兰点图来检测年龄变量中的异常值，并按性别分组查看年龄分布。

读取数据：

setwd("C:/RBook/")
Medical <- read.table(file = "Medical.txt", header = TRUE)

创建年龄的克利夫兰点图：

dotchart(Medical$Age, xlab = "Age", ylab = "Patient number")

按性别分组创建克利夫兰点图：

Isna <- is.na(Medical$Sex)
dotchart(Medical$Age[!Isna], groups = factor(Medical$Sex[!Isna]), xlab = "Age", ylab = "Patient number grouped by sex")

这样可以帮助医生快速发现年龄数据中的异常情况，以及不同性别患者的年龄分布特征。

5. 可视化工具的选择与优化

在实际应用中，如何选择合适的可视化工具是关键。以下是一个选择可视化工具的决策流程：

数据类型和分析目的	推荐可视化工具
连续数值响应变量和分类解释变量，检测异常值、展示分布异质性和解释变量影响	箱线图
检测连续变量中的异常值，可按分类变量分组	克利夫兰点图
通用绘图，根据对象类型自动选择绘图方法，可定制图形细节	plot函数

同时，为了优化可视化效果，我们可以遵循以下原则：

选择合适的颜色和符号，使图形更加清晰易读。例如，在箱线图中使用不同的颜色区分不同的类别。
合理设置坐标轴范围和标签，避免数据显示不完整或标签重叠。
当图形中包含大量数据点时，可以考虑使用透明度来避免数据点的重叠。

6. 总结与展望

通过本文的介绍，我们了解了R语言中箱线图、克利夫兰点图和plot函数的使用方法和应用场景。这些可视化工具在数据探索和分析中起着重要的作用，可以帮助我们快速发现数据中的特征和异常值，为后续的数据分析和建模提供有力支持。

在未来的数据分析工作中，我们可以进一步探索这些可视化工具的高级应用，例如结合其他统计方法进行更深入的分析。同时，随着数据量的不断增加和数据类型的日益复杂，我们还需要不断学习和掌握新的可视化技术，以更好地展示和理解数据。

mermaid流程图：

graph LR
    A[明确分析目的] --> B{选择可视化工具}
    B -->|箱线图| C[准备数据]
    B -->|克利夫兰点图| C
    B -->|plot函数| C
    C --> D[绘制图形]
    D --> E{优化图形效果}
    E -->|是| F[分析数据]
    E -->|否| D
    F --> G[得出结论]

希望本文能够帮助你在R语言数据可视化方面取得更好的效果，让你能够更加高效地探索和理解数据。如果你在实际应用中遇到任何问题，欢迎随时留言讨论。

总之，掌握这些可视化工具的使用方法，将为你的数据分析工作带来极大的便利和价值。不断实践和探索，你将能够根据不同的数据特点和分析需求，灵活运用这些工具，挖掘出数据背后的潜在信息。