18、不平衡分类中的成本敏感学习与逻辑回归

不平衡分类中的成本敏感学习与逻辑回归

1. 成本敏感学习概述

在机器学习中,不平衡分类问题较为常见,即不同类别的样本数量存在较大差异。成本敏感学习是解决这类问题的有效方法,其效果在很大程度上依赖于所提供的成本矩阵。在某些领域,定义成本矩阵相对容易。例如,在保险理赔场景中,假阳性的成本可能是公司与客户后续跟进的货币成本,假阴性的成本则可能是保险理赔的费用。然而,在其他领域,如癌症诊断测试中,确定假阳性的成本可能是后续测试的货币成本,但让患病患者回家病情加重的等效货币成本却难以确定。

成本可以是一个复杂的多维函数,包括货币成本、声誉成本等。对于不平衡分类任务,一个不错的起点是根据类别分布的反比来分配成本。例如,当少数类与多数类的样本比例为 1:100 时,可以将假阴性的成本设为 100,假阳性的成本设为 1,如下表所示:
| | 实际负类 | 实际正类 |
| — | — | — |
| 预测负类 | 0 | 100 |
| 预测正类 | 1 | 0 |

这种设置成本的启发式方法通常是有效的,但它假设训练数据中观察到的类别分布能代表更广泛的问题,并且适用于所选择的成本敏感方法。因此,建议将此启发式方法作为起点,然后测试一系列类似的相关成本或比率,以确认其合理性。

成本敏感机器学习方法明确使用成本矩阵,针对不平衡学习问题,主要有以下三类成本敏感方法:
1. 成本敏感重采样
2. 成本敏感算法
3. 成本敏感集成方法

1.1 成本敏感重采样

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值