离散化:将数值属性转换为分类属性。
输出 数据:具有离散化值的数据集
设置离散化的默认方法。 选择变量以为每个变量设置特定的离散化方法。将鼠标悬停在变量上显示区间。
离散化方法
Keep numeric(保持数值):保持变量不变。
Remove (移除):移除变量。
Natural binning(自然分箱):为变量的值范围找到合适的阈值,例如10、20、30或0.2、0.4、0.6、0.8。我们可以设置所需的箱数;实际箱数将取决于区间。
Fixed width(固定宽度):使用用户定义的箱宽度。箱的边界将是宽度的倍数。例如,如果宽度为10,变量的值范围从35到68,结果的箱将分别是<40、40-50、50-60、>60。此方法不适用于时间变量。如果宽度太大(导致单个区间)或太小(导致超过100个区间),变量将被移除。
Time interval(时间区间):与固定宽度类似,但适用于时间变量。我们指定宽度和时间单位,例如4个月或3天。箱的边界将是区间的倍数;例如,使用4个月,箱总是包括Jan-Mar、Apr-Jun、Jul-Sep和Oct-Dec。
Equal-frequency (等频分割):