机器学习中的特征工程与评估
在机器学习领域,原始数据往往需要进行大量的特征工程(FE)处理后才能用于模型训练,尤其是那些包含大量属性的原始数据。在深入探讨机器学习(ML)和特征工程的循环之前,我们先来了解一下评估训练模型性能的相关问题。
1. 评估模型性能
评估训练模型的方式对模型选择和特征工程类型有着深远影响。不能仅仅依据机器学习工具包中容易获取的指标来决定评估指标,因为许多工具包允许自定义指标。
1.1 评估指标
在定义问题时,思考用于评估训练算法结果的不同指标非常重要。这些指标与训练模型的潜在用途密切相关,不同的误差对应用程序的影响也不尽相同,不同指标对特定误差的惩罚也不同。
-
分类指标
- 混淆矩阵 :理解误差和指标的一个好方法是通过列联表(也称为交叉分类表)。对于预测二元类的情况,列联表如下:
| 真实情况 | + | - |
| ---- | ---- | ---- |
| 预测 + | 真阳性(true positives) | 假阳性(false positives) |
| 预测 - | 假阴性(false negatives) | 真阴性(true negatives) | - 误差类型 :需要区分假阳性(I 型错误)和假阴性(II 型错误)。某些应用对一种类型的误差更具容忍性,例如预过滤数据可以容忍较多的 I 型错误,而识别商店行窃者的应用则对 I 型错误的容忍度极低。
- 混淆矩阵 :理解误差和指标的一个好方法是通过列联表(也称为交叉分类表)。对于预测二元类的情况,列联表如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



