输入
- 数据: 输入数据集
- 学习器: 填充学习算法
输出
- 数据: 填充后的数据集
功能
Orange中的一些算法和可视化工具无法处理数据中的未知值。这个小部件执行的是统计学家所说的 imputation 过程:它用从数据中计算出的值或用户设置的值来替换缺失值。默认的 imputation 方法是 (1-NN)。
选项"As a distinct value"的含义是将缺失值替换为一个独特的值,这个值不会与数据集中的任何其他值相同。
这是一种简单的填补方法,适用于不想对缺失值进行复杂估算或预测的情况,而是希望将缺失值作为一个独立的类别来处理。
选择"As a distinct value"后,Orange3会将每个缺失值替换为一个新创建的值,通常是添加一个前缀或后缀,或者使用一个特殊的标签,比如"NULL"或"Missing"。
这样做的目的是为了在数据分析过程中保留缺失值的信息,而不是将其删除或用其他数值替代。
这种方法特别适用于分类数据,因为它可以将缺失值作为一个单独的类别来考虑,从而在数据集中保持数据的完整性和可追溯性。
然而,对于数值数据,这种方法可能会引入一个不必要的独特值,这可能会影响后续的分析,例如在执行统计测试或建模时。