探索性数据可视化:从单变量到多变量的洞察
在数据分析中,计算数据的数值摘要固然有价值,但对于很多人来说,数字并不能高效地传达他们想要看到的信息。可视化数据往往是发现数据模式的更有效方式。本文将介绍两种最简单的探索性数据可视化形式:单列可视化和两列可视化。
单列可视化:揭示数据形状
单列可视化主要用于突出数据的形状,最典型的技术是直方图。下面以身高和体重数据为例,展示如何使用R语言绘制直方图。
library('ggplot2')
data.file <- file.path('data', '01_heights_weights_genders.csv')
heights.weights <- read.csv(data.file, header = TRUE, sep = ',')
ggplot(heights.weights, aes(x = Height)) + geom_histogram(binwidth = 1)
运行上述代码后,我们会发现数据呈现出钟形曲线的形状,大部分数据集中在均值和中位数附近。然而,这种形状可能是由于所使用的直方图类型造成的错觉。为了验证这一点,我们可以尝试使用不同的组距。
# 组距为5英寸
ggplot(heights.weights, aes(x = Height)) + geom_histogram(binwidth = 5)
# 组距为0.001英寸
ggplot(heights.weights, aes(x = Height)) + geom_histogram(b
超级会员免费看
订阅专栏 解锁全文
818

被折叠的 条评论
为什么被折叠?



