3、知识发现环境:工具、操作与应用

知识发现环境:工具、操作与应用

1. 数据可视化与相关性分析

在数据可视化方面,有一种展示方式与散点图展示的信息非常相似,但格式更为简洁。在这种展示中,我们能看到数据集所有属性的字段,每个字段中还有对应属性值的柱状图。同时,观测值的类别成员信息也经过编码,便于我们发现相关性。

例如,在“Legs”属性字段中,从左到右有分别代表两条腿、三条腿和四条腿的三个柱状图。我们可以观察到,代表两条腿和三条腿的柱状图中的观测值都不属于哺乳动物类别(浅灰色);而代表四条腿的柱状图中,既有属于哺乳动物类别的观测值(深灰色),也有不属于该类别的观测值(浅灰色)。另外,“Fur”属性与类别成员信息呈现出完美的相关性。

R 脚本语言结合其灵活的图形引擎,能让分析人员构建强大的可视化效果。不过,要发挥这种能力,就需要深入理解脚本语言。虽然深入讨论脚本语言和图形引擎超出了这里的介绍范围,但仅用一条命令 > plot(mammals.df) 就能构建出与 WEKA 中非常相似的散点图矩阵。

2. 数据操作

数据操作不仅包括对数据的读取、写入和可视化,还需要相应的工具来处理数据。数据操作方法主要分为两类:
- 面向属性的方法 :操作数据表格的整列。当我们想通过添加数据列来丰富表格信息,或者删除对发现过程无用的属性列时,这种方法特别有用。
- 面向观测的方法 :关注数据表格的行。这对于移除有错误或被视为异常值的观测值很有帮助。

下面分别介绍 WEKA 和 R 在数据操作方面的能力:

2.1 WEKA
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值