随机化(Randomize)
对输入数据集的类别、属性和/或元数据进行随机打乱。
输入
● 数据(Data):输入数据集
输出
● 数据(Data):随机化后的数据集
随机化部件接收一个输入数据集,并输出经过随机化处理的同一数据集。输出的数据集中,类别、属性或元数据可能被重新排列。
- 选择要随机化的列组:指定数据集中需要打乱的列组(如类别、属性或元数据)。
- 设置随机化比例:选择数据集中需要随机化的部分比例。
- 生成可复现的输出:勾选此项可确保每次运行结果一致。
- 自动应用更改:若勾选“自动应用”,更改会立即生效;否则需手动点击“应用”按钮。
- 生成报告:生成操作过程的总结报告。
示例
基础用法:
随机化部件通常放置在数据源部件(如“文件”部件)之后。如下图所示,在鸢尾花(Iris)数据集中,类别变量的值被随机打乱。