R的可视化操作(二)
这一节的图包括直方图、箱线图和提琴图,由于上一节已经介绍了基本的修饰参数,因此这一节不再赘述,只分享每个图形的特点,相关修饰参数详见从零开始学R(七)——R的可视化之条形图、折线图、散点图
直方图
直方图可以反映连续型单变量的分布特征。一般在图条上会有概率密度曲线,更为平滑地反映数据分布特征。
ggplot(iris) +
geom_hist(aes(Sepal.Width))
下图由上面的命令绘制而成,其中,系统默认将数据分为30组,如果使用其他组数,可以用stat_bin(bins = )
参数进行设置
同时,我们也可以为这个直方图增加密度曲线
ggplot(iris, aes(Sepal.Width)) +
geom_histogram(aes(y = ..density..)) +
geom_density()
箱线图
箱线图是用来分析一个连续型变量和离散类别变量之间的关系,其中“箱子”中间的线表示中位数(!不是均值!),"箱子"顶部是上四分位数,"箱子"底部是下四分位数。“箱子”之外还有两条边缘线,在边缘线之外的则是异常值。
ggplot(iris, aes(x = Species,
y = Sepal.Width)) +
geom_boxplot()
下图是上述代码绘制而出的箱线图
提琴图
提琴图是另外一种用来分析一个连续型变量和离散类别变量之间关系的图。
ggplot(iris, aes(x = Species, y = Sepal.Width)) +
geom_violin()
下图是上述代码绘制而出的提琴图(白颜色的图实在是太丑了,加了一个颜色分类的代码),提琴图中间色块的宽度代表分布在这一位置的数据量