2、机器学习中的特征工程与评估

机器学习中的特征工程与评估

在机器学习领域,原始数据往往需要进行大量的特征工程(FE)处理后才能用于模型训练,尤其是那些包含大量属性的原始数据。在深入探讨机器学习(ML)和特征工程的循环之前,我们先来了解一下评估训练模型性能的相关问题。

1. 评估模型性能

评估训练模型的方式对模型选择和特征工程类型有着深远影响。不能仅仅依据机器学习工具包中容易获取的指标来决定评估指标,因为许多工具包允许自定义指标。

1.1 评估指标

在定义问题时,思考用于评估训练算法结果的不同指标非常重要。这些指标与训练模型的潜在用途密切相关,不同的误差对应用程序的影响也不尽相同,不同指标对特定误差的惩罚也不同。

  • 分类指标

    • 混淆矩阵 :理解误差和指标的一个好方法是通过列联表(也称为交叉分类表)。对于预测二元类的情况,列联表如下:
      | 真实情况 | + | - |
      | ---- | ---- | ---- |
      | 预测 + | 真阳性(true positives) | 假阳性(false positives) |
      | 预测 - | 假阴性(false negatives) | 真阴性(true negatives) |
    • 误差类型 :需要区分假阳性(I 型错误)和假阴性(II 型错误)。某些应用对一种类型的误差更具容忍性,例如预过滤数据可以容忍较多的 I 型错误,而识别商店行窃者的应用则对 I 型错误的容忍度极低。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值