数据探索、降维与性能评估全解析
1. 数据可视化
1.1 数据可视化的用途及工具选择
数据可视化在数据分析中具有重要作用,它能帮助我们直观地理解数据。在进行数据可视化时,常面临选择 Base R 还是 ggplot 的问题。Base R 是 R 语言自带的绘图系统,简单直接;而 ggplot 则提供了更丰富的绘图功能和更美观的图形样式。
1.2 数据示例
- 波士顿住房数据 :该数据集可用于研究住房相关的各种因素,如房价与周边环境、房屋特征等的关系。
- 美国铁路客运公司列车客流量数据 :可用于分析客流量的变化趋势、影响因素等。
1.3 基本图表类型
- 条形图、折线图和散点图 :
- 条形图适用于比较不同类别之间的数据大小。例如,比较不同城市的平均房价。
- 折线图常用于展示数据随时间的变化趋势,如列车客流量随月份的变化。
- 散点图可用于观察两个变量之间的关系,如房屋面积与房价的关系。
- 分布绘图:箱线图和直方图 :
- 箱线图能展示数据的分布情况,包括中位数、四分位数、异常值等。
- 直方图用于展示数据的频率分布。
- 热图:可视化相关性和缺失值
数据探索与降维全解析
超级会员免费看
订阅专栏 解锁全文
30

被折叠的 条评论
为什么被折叠?



