域清理(Purge Domain)
移除未使用的属性值及无用属性,并对剩余值进行排序。
输入
• 数据:输入数据集
输出
• 数据:过滤后的数据集
定义
名义属性(nominal attributes)的定义中可能包含数据中未出现的值。即使原始数据中未出现此类情况,筛选数据、选择示例子集等操作也可能移除具有特定属性值的所有示例。这些冗余值会干扰数据展示(尤其是可视化),应予以清理。
清理后,某些属性可能变为单值属性,极端情况下甚至可能完全无值(如果该属性在所有示例中均未定义)。此时可移除该属性。
另一问题是属性值的排序:若数据从文件中读取且格式未预先声明值,则值按“出现顺序”排序。有时更建议按字母顺序排序。
- 清理属性
- 清理类别
- 清理元属性
- 过滤过程信息
- 生成报告
- 若勾选“自动应用”