一、分级离散
—概述
将数值属性离散到用户定义的若干级别中。
—描述
这个操作符将所有的数值属性离散成标称属性。通过简单的分级,离散被执行,即相同大小,
指定数量的级别被创建,数值值被分类到这些级别中。跳过所有包含标签的特殊属性。
—输入
example set input: expects: ExampleSetMetaData: #examples: = 0; #attributes: 0
—输出
example set output:
original:
preprocessing model:
—参数
return preprocessing model: 表示是否也应该返回预处理模型。
create view: 创建视图应用预处理,而不是改变数据。
attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类
型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
number of bins: 定义应该用于每个属性的级别数。
define boundaries: 为级别计算定义界限。
min value: 级别范围的最小值。
max value: 级别范围的最大值。
range name type: 表示是否应该使用包含界限的长的范围名。
automatic number of digits: 表示是否应该为范围名自动确定数字位数。
number of digits: 用于间隔名称的最小数字位数。
二、频率离散
—概述
将数值属性离散化到用户定义的带相同频率的若干单元中。
—描述
这个操作符将数据集中的所有数值属性离散成标称属性。通过相同频率分级,离散被执行,即所有箱子的阈值用一种方式选择,该方式为所有的箱子包含相同数量的数值。通过参数,或者,可选的,作为带有非缺失值(为每个单个属性计算)的实例值的平