离散化
将数值属性转换为分类属性。
输入
• 数据:输入数据集
输出
• 数据:包含离散化值的数据集
离散化部件用于对数值变量进行分箱处理。
-
设置默认离散化方法:
选择全局应用的离散化方法。 -
为特定变量选择离散化方法:
选中变量后,可单独设置其离散化方法。悬停在变量上可查看当前分箱区间。 -
离散化方法:
- 保持数值(Keep numeric):保留原始数值,不进行离散化。
- 移除(Remove):从数据集中删除该变量。
- 自然分箱(Natural binning):根据数值范围自动寻找合理分箱阈值(例如 10, 20, 30 或 0.2, 0.4, 0.6)。可指定期望的分箱数,实际分箱数可能因数值分布而异。
- 固定宽度(Fixed width):用户自定义分箱宽度。分箱边界为宽度的整数倍(例如,宽度为 10,数值