重加权
对数据集应用重加权算法。
输入
- 数据:参考数据集
输出
- 预处理数据:添加了元属性“权重”的参考数据集。
- 预处理器:在参考数据集上训练得到的预处理器。
重加权 是一个用于缓解数据集中偏见的组件,它通过为每个实例分配权重,鼓励模型优先学习 underrepresented(代表性不足)的群体,同时减少对 overrepresented(过度代表)群体的关注。该组件可以通过以下两种方式使用:
- 当用户提供数据作为输入时,该组件会对数据集应用重加权算法,并输出添加了元属性“权重”的预处理数据集。用户可以将预处理后的数据集作为输入传递给其他组件。同时,它还会输出一个预处理器,用于对数据集的子集应用相同的转换。
- 该组件也可以作为输入传递给学习器组件。在这种情况下,重加权组件会被应用到学习器组件输入的任何训练数据集中。
示例
第一个示例展示了如何使用 重加权 组件对数据集进行预处理。首先加载一个公平性数据集,这里我们使用 COMPAS 分析数据集。然后使用 数据采样器 组件将数据集拆分为训练集和测试集。将训练集连接到 重加权 组件,该组件会训练算法并生成预处理器。预处理器可以与 应用域 组件一起连接到测试集,以
订阅专栏 解锁全文
126

被折叠的 条评论
为什么被折叠?



