机器学习中的数据平衡与模型训练策略
1. 合成示例与 SMOTE 技术
在处理不平衡数据集时,合成示例是一种有效的方法。基于数据集中的两个实际示例,通过计算各列值的中点,可以生成一个新的合成示例,如下表所示:
| Glucose | BloodPressure | SkinThickness | BMI |
| ---- | ---- | ---- | ---- |
| 165.5 | 68 | 17.5 | 28.4 |
SMOTE 技术主要应用于表格数据,但类似的逻辑也可应用于图像数据集。例如,在构建区分孟加拉猫和暹罗猫的模型时,如果数据集中孟加拉猫的图像仅占 10%,可以使用 Keras 的 ImageDataGenerator 类进行图像增强,生成孟加拉猫图像的更多变体。该类通过旋转、裁剪、调整亮度等操作,利用几个参数就能为同一图像生成多个变体。
2. 处理不平衡数据集的替代方案
2.1 重新构建问题与级联模式
重新构建问题是处理不平衡数据集的一种方法。可以考虑将问题从分类转换为回归,或者反之,利用相关技术并训练一系列模型。以使用 BigQuery 出生数据集预测婴儿体重为例:
- 查看数据分布 :使用 pandas 创建婴儿体重数据样本的直方图,查看体重分布。
%%bigquery df
SELECT
weight_pounds
FROM
`bigquery-public-data.samples.natality`
LIMIT 10000
df.plot
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



