14、机器学习中的数据平衡与模型训练策略

机器学习中的数据平衡与模型训练策略

1. 合成示例与 SMOTE 技术

在处理不平衡数据集时,合成示例是一种有效的方法。基于数据集中的两个实际示例,通过计算各列值的中点,可以生成一个新的合成示例,如下表所示:
| Glucose | BloodPressure | SkinThickness | BMI |
| ---- | ---- | ---- | ---- |
| 165.5 | 68 | 17.5 | 28.4 |

SMOTE 技术主要应用于表格数据,但类似的逻辑也可应用于图像数据集。例如,在构建区分孟加拉猫和暹罗猫的模型时,如果数据集中孟加拉猫的图像仅占 10%,可以使用 Keras 的 ImageDataGenerator 类进行图像增强,生成孟加拉猫图像的更多变体。该类通过旋转、裁剪、调整亮度等操作,利用几个参数就能为同一图像生成多个变体。

2. 处理不平衡数据集的替代方案
2.1 重新构建问题与级联模式

重新构建问题是处理不平衡数据集的一种方法。可以考虑将问题从分类转换为回归,或者反之,利用相关技术并训练一系列模型。以使用 BigQuery 出生数据集预测婴儿体重为例:
- 查看数据分布 :使用 pandas 创建婴儿体重数据样本的直方图,查看体重分布。

%%bigquery df
SELECT
  weight_pounds
FROM
  `bigquery-public-data.samples.natality`
LIMIT 10000

df.plot
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值