RapidMiner 离散/缺失

本文详细介绍了RapidMiner中针对数值属性的离散方法,包括分级离散、频率离散和大小离散,以及如何处理缺失值,包括声明缺失值、填补数据空白和替换缺失值的策略。这些方法在大数据分析中对于数据预处理至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写图片描述

一、分级离散


—概述

将数值属性离散到用户定义的若干级别中。

—描述

这个操作符将所有的数值属性离散成标称属性。通过简单的分级,离散被执行,即相同大小,
指定数量的级别被创建,数值值被分类到这些级别中。跳过所有包含标签的特殊属性。

—输入

example set input: expects: ExampleSetMetaData: #examples: = 0; #attributes: 0

—输出

example set output:
original:
preprocessing model:

—参数

return preprocessing model: 表示是否也应该返回预处理模型。
create view: 创建视图应用预处理,而不是改变数据。
attribute filter type: 条件指定该操作符选择或影响哪些属性。
attribute: 应选择的属性。
attributes: 应选择的属性。
regular expression: 属性名保持不变的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,但匹配这个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应该被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类
型,但该类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否只接受通常被过滤掉的属性。
include special attributes: 表示是否该操作符也适用于特殊属性。否则,它们保持不变。
number of bins: 定义应该用于每个属性的级别数。
define boundaries: 为级别计算定义界限。
min value: 级别范围的最小值。
max value: 级别范围的最大值。
range name type: 表示是否应该使用包含界限的长的范围名。
automatic number of digits: 表示是否应该为范围名自动确定数字位数。
number of digits: 用于间隔名称的最小数字位数。

二、频率离散


—概述

将数值属性离散化到用户定义的带相同频率的若干单元中。

—描述

这个操作符将数据集中的所有数值属性离散成标称属性。通过相同频率分级,离散被执行,即所有箱子的阈值用一种方式选择,该方式为所有的箱子包含相同数量的数值。通过参数,或者,可选的,作为带有非缺失值(为每个单个属性计算)的实例值的平

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值