知识发现环境:工具、操作与应用
1. 数据可视化与相关性分析
在数据可视化方面,有一种展示方式与散点图展示的信息非常相似,但格式更为简洁。在这种展示中,我们能看到数据集所有属性的字段,每个字段中还有对应属性值的柱状图。同时,观测值的类别成员信息也经过编码,便于我们发现相关性。
例如,在“Legs”属性字段中,从左到右有分别代表两条腿、三条腿和四条腿的三个柱状图。我们可以观察到,代表两条腿和三条腿的柱状图中的观测值都不属于哺乳动物类别(浅灰色);而代表四条腿的柱状图中,既有属于哺乳动物类别的观测值(深灰色),也有不属于该类别的观测值(浅灰色)。另外,“Fur”属性与类别成员信息呈现出完美的相关性。
R 脚本语言结合其灵活的图形引擎,能让分析人员构建强大的可视化效果。不过,要发挥这种能力,就需要深入理解脚本语言。虽然深入讨论脚本语言和图形引擎超出了这里的介绍范围,但仅用一条命令 > plot(mammals.df) 就能构建出与 WEKA 中非常相似的散点图矩阵。
2. 数据操作
数据操作不仅包括对数据的读取、写入和可视化,还需要相应的工具来处理数据。数据操作方法主要分为两类:
- 面向属性的方法 :操作数据表格的整列。当我们想通过添加数据列来丰富表格信息,或者删除对发现过程无用的属性列时,这种方法特别有用。
- 面向观测的方法 :关注数据表格的行。这对于移除有错误或被视为异常值的观测值很有帮助。
下面分别介绍 WEKA 和 R 在数据操作方面的能力:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



