处理不平衡数据集的策略与方法
1. 合成少数类过采样技术(SMOTE)
在处理数据集时,不平衡问题常常会影响模型的性能。以皮马印第安人糖尿病数据集为例,其中 34% 的样本为糖尿病患者,这部分样本可视为少数类。
1.1 合成示例
从数据集中选取两个少数类样本,其特征如下表所示:
| Glucose | BloodPressure | SkinThickness | BMI |
| ---- | ---- | ---- | ---- |
| 148 | 72 | 35 | 33.6 |
| 183 | 64 | 0 | 23.3 |
通过计算每列值的中点,可生成一个新的合成示例,如下表:
| Glucose | BloodPressure | SkinThickness | BMI |
| ---- | ---- | ---- | ---- |
| 165.5 | 68 | 17.5 | 28.4 |
1.2 图像数据应用
SMOTE 技术主要针对表格数据,但类似逻辑也可应用于图像数据集。例如,在构建区分孟加拉猫和暹罗猫的模型时,若数据集中孟加拉猫图像仅占 10%,可使用 Keras 的 ImageDataGenerator 类进行图像增强,通过旋转、裁剪、调整亮度等操作生成更多孟加拉猫图像的变体。
2. 权衡与替代方案
对于固有不平衡数据集,有多种替代解决方案,包括重新构建问题和处理异常检测情况,同时还需考虑数据集的整体大小、不同问题类型的最佳模型架构以及对少数类预测的解释。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



