1、对于一个两类分类问题,假设少数类与多数类的比例为1:20。我们应该如何平衡这个数据集?应该在测试或评估阶段应用平衡技术吗?请说明理由。
可以使用如过采样、欠采样和成本敏感学习等技术来平衡这个数据集。不应该在测试或评估阶段应用平衡技术,因为测试集和评估集应反映真实的数据分布,对其进行平衡会导致评估结果无法准确反映模型在实际场景中的性能,平衡操作应在训练阶段进行。
2、探索 imbalanced - learn 库中可用的各种过采样 API,链接为:https://imbalanced - learn.org/stable/references/over_sampling.html。注意每个 API 的各种参数。
可访问链接 https://imbalanced-learn.org/stable/references/over_sampling.html 探索 imbalanced-learn 库中的过采样 API,并留意各 API 参数。
3、探索 imbalanced - learn 库中可从 https://imbalanced - learn.org/stable/references/under_sampling.html 获取的各种欠采样 API。
访问链接 https://imbalanced-learn.org/stable/references/under_sampling.html 探索 imbalanced-learn 库中的欠采样 API。
4、你能想出一个你自己的欠采样方法吗?(提示:考虑以新的方式组合各种欠采样方法。)
可以考虑将随机欠

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



