清理特征
移除未使用的属性值和无用的属性,并对剩余的值进行排序。
输入
数据: 输入数据集
输出
数据: 过滤后的数据集
命名属性定义有时包含在数据中不出现的值。即使原始数据中没有这种情况,数据过滤、选择示例子集等操作也可能移除所有属性具有特定值的实例。这些值会干扰数据展示,尤其是在各种可视化中,应该移除它们。
清除一个属性后,它可能变成单一值,在极端情况下,可能完全没有任何值(如果该属性的值对于所有实例都是未定义的)。在这种情况下,可以移除该属性。
属性值的顺序是另一个问题:如果数据从文件中读取,文件格式中的值事先没有声明,它们会按照出现顺序进行排序。有时,我们更希望它们按字母顺序排序。
1.清除属性。
2.清除类别。
3.清除元属性。
4.过滤过程信息。
5.生成报告。
6.如果勾选了“自动应用”,当小部件设置发生变化时,小部件将输出数据。
这样的净化是由小部件Purge Domain完成的。普通属性和类别属性是分别处理的。对于每个属性,我们可以决定是否要进