机器学习中的成本敏感学习与协方差矩阵
1. 成本敏感学习概述
在机器学习中,分类是一项重要任务。传统的分类算法大多致力于最小化错误率,即错误预测类别标签的百分比。然而,它们往往忽略了不同类型误分类错误之间的差异,默认所有误分类错误的成本是相等的。
但在许多实际应用中,这种假设并不成立。例如,在癌症的医学诊断中,将癌症患者误诊为健康人(假阴性)比假阳性错误要严重得多,因为患者可能会因延误正确诊断和治疗而失去生命。同样,在安检场景中,漏检携带炸弹的恐怖分子比检查无辜人员的代价要高得多。
成本敏感学习正是考虑了这些成本因素,如误分类成本、数据获取成本、主动学习成本、计算成本、人机交互成本等。其中,误分类成本是最重要的成本,近年来受到了广泛关注。
2. 成本敏感学习的理论基础
2.1 成本矩阵
在成本敏感学习中,通常假设为二元分类(正类和负类)。误分类成本可以用成本矩阵来表示,如下表所示:
| 实际负类 | 实际正类 | |
|---|---|---|
| 预测负类 | C(0, 0) 或 TP | C(0, 1) 或 FN |
| 预测正类 | C(1, 0) 或 FP | C(1, 1) 或 TP |
其中,C(i, j) 表
超级会员免费看
订阅专栏 解锁全文
1379

被折叠的 条评论
为什么被折叠?



