从零开始学R(八)——R的可视化之直方图、箱线图、提琴图

本文是R语言数据可视化的教程,重点介绍直方图、箱线图和提琴图的绘制。直方图通过平滑的概率密度曲线展示连续型变量分布;箱线图揭示连续型变量与离散类别变量的关系,其中中位数、上四分位数和下四分位数是关键指标;提琴图则以一种独特方式展示相同的数据信息,宽度表示数据分布的频次。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

R的可视化操作(二)

这一节的图包括直方图、箱线图和提琴图,由于上一节已经介绍了基本的修饰参数,因此这一节不再赘述,只分享每个图形的特点,相关修饰参数详见从零开始学R(七)——R的可视化之条形图、折线图、散点图

直方图

直方图可以反映连续型单变量的分布特征。一般在图条上会有概率密度曲线,更为平滑地反映数据分布特征。

ggplot(iris) +
  geom_hist(aes(Sepal.Width))

下图由上面的命令绘制而成,其中,系统默认将数据分为30组,如果使用其他组数,可以用stat_bin(bins = )参数进行设置
在这里插入图片描述
同时,我们也可以为这个直方图增加密度曲线

ggplot(iris, aes(Sepal.Width)) +
  geom_histogram(aes(y = ..density..)) +
  geom_density()

在这里插入图片描述

箱线图

箱线图是用来分析一个连续型变量和离散类别变量之间的关系,其中“箱子”中间的线表示中位数(!不是均值!),"箱子"顶部是上四分位数,"箱子"底部是下四分位数。“箱子”之外还有两条边缘线,在边缘线之外的则是异常值。

ggplot(iris, aes(x = Species,
                 y = Sepal.Width)) +
  geom_boxplot()

下图是上述代码绘制而出的箱线图
在这里插入图片描述

提琴图

提琴图是另外一种用来分析一个连续型变量和离散类别变量之间关系的图。

ggplot(iris, aes(x = Species, y = Sepal.Width)) +
  geom_violin()

下图是上述代码绘制而出的提琴图(白颜色的图实在是太丑了,加了一个颜色分类的代码),提琴图中间色块的宽度代表分布在这一位置的数据量
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值