数据可视化:探索数据多维特性的有效工具
1. 数据可视化的用途
俗话说“一图胜千言”,数据可视化能将分散的文字信息浓缩成简洁易懂的图形图像。在处理数字数据时,数据可视化和数值汇总为我们提供了探索数据的强大工具和展示结果的有效方式。
数据可视化技术主要应用于数据挖掘过程的预处理阶段,具体用途如下:
- 数据清理 :通过可视化可以发现错误值(如年龄为 999 或 -1)、缺失值、重复行、所有值相同的列等。
- 变量推导与选择 :帮助确定分析中应包含哪些变量,哪些可能是冗余的。
- 确定分箱大小 :在需要对数值变量进行分箱时,辅助确定合适的分箱大小。
- 类别合并 :在数据缩减过程中,对类别进行合并。
- 数据收集规划 :当数据尚未收集且收集成本较高时,通过样本确定哪些变量和指标有用。
数据探索是后续正式分析的必要初始步骤。图形探索可以支持自由形式的探索,以了解数据结构、清理数据、识别异常值、发现初始模式并提出有趣的问题;也可以更有针对性地针对特定问题进行探索。在数据挖掘中,需要将自由探索与特定目标相结合。
在 R 语言中进行数据可视化时,有 Base R 和 ggplot 两种选择。ggplot 包由 Hadley Wickham 开发,成为 R 中创建高质量可视化的流行工具。“gg”代表“Grammar of Graphics”,学习 ggplot 需要熟悉其绘图哲学和技术语言,具有较高的灵活性和强大的功能,但也有一定的学习曲
超级会员免费看
订阅专栏 解锁全文

1017

被折叠的 条评论
为什么被折叠?



