箱线图是什么?
箱线图(boxplot),又称箱形图或盒式图,不仅可以展示不同类别数据的平均水平差异,还能展示数据间的极值、离散程度、异常值等信息

- 箱子的中间线,是数据的中位数,反映了数据的平均水平
- 箱子的上下限,分别是数据的上四分位数和下四分位数,箱子包含了50%的数据,其高度在一定程度上反映了数据的离散程度
- 箱子的上方和下方又各有一条线,分别是数据的最大和最小值,而外溢的点则可理解成为异常值
第一步 安装并载入ggplot2包
install.packages("ggplot2") #安装ggplot2包
library(ggplot2) #载入ggplot2包
第二步 读取Excel文件
本篇使用的数据集是规模以上服务业企业的经济效益综合指数(将标准化后的贡献率、负债率、周转率、利润率按均等赋权后计算得到,贡献率、周转率、利润率为正向指标,负债率为适中指标),并将企业按国民经济行业门类进行分类
library(readxl) #载入readxl包,首次使用需先安装
data <- read_xlsx("C:/Users/dell-pc/Desktop/data.xlsx", sheet = "data") #读取Excel文件,若有多张sheet需指定sheet名
head(data,10) #输出数据集前10行

第三步 绘制箱线图
pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+ #指定数据集,设置坐标轴名称、类别颜色
geom_boxplot() #绘制箱线图
pic #输出箱线图
(选做)第四步 美化箱线图
pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+ #设置箱线尺寸、箱形宽度、异常点透明度
geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+ #设置数据点的分散程度、透明度、尺寸
labs(title = "服务业行业门类经济效益综合指数") #添加图形标题
pic
(选做)第五步 其他输出形式1
pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数, color = 行业门类))+
geom_boxplot(size = 0.8, width = 0.8, alpha = 0)+
geom_jitter(position = position_jitter(0.4), alpha = 0.2, size=1.5)+
labs(title = "服务业行业门类经济效益综合指数")
pic+theme_classic()
(选做)第六步 其他输出形式2
pic <- ggplot(data = data, aes(x = 行业门类, y = 经济效益综合指数))+
geom_boxplot(aes(fill = 行业门类), size = 0.8, width = 0.8,)+
labs(title = "服务业行业门类经济效益综合指数")
pic