数据可视化技巧与 ggplot2 应用
1. 箱线图、抖动点图与小提琴图
当数据集中包含一个分类变量和一个或多个连续变量时,我们往往想了解连续变量的值如何随分类变量的水平变化。以汽车数据为例,我们想查看不同汽车类型的燃油经济性如何变化,可先创建如下散点图:
ggplot(mpg, aes(drv, hwy)) +
geom_point()
由于 class 和 hwy 的唯一值较少,会出现大量重叠绘图的情况,许多点绘制在同一位置,难以看清分布。有三种有用的技术可缓解此问题:
- 抖动点图(Jittering) : geom_jitter() 为数据添加少量随机噪声,有助于避免重叠绘图。
- 箱线图(Boxplots) : geom_boxplot() 用几个汇总统计量概括分布形状。
- 小提琴图(Violin plots) : geom_violin() 以紧凑形式展示分布的“密度”,突出显示点较多的区域。
以下是这三种图的代码示例:
ggplot(mpg, aes(drv, hwy)) + geom_jitter()
ggplot(mpg, aes(drv, hwy)) + geom_boxplot()
ggplot(mpg,
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



