72、医保欺诈检测:机器学习解决方案

医保欺诈检测:机器学习解决方案

1. 引言

在医疗保健领域,医保欺诈检测是一个至关重要的问题。过往关于医保保险索赔欺诈检测的研究,促使我们思考近期的梯度提升决策树(GBDT)实现,结合自动编码器的自动特征提取能力以应对高维度问题,再进行类别采样,是否是一种适用于医保欺诈检测的算法。

2. 关键问题及解决方案

2.1 处理不平衡数据集:采样方法

在欺诈检测中应用机器学习模型,尤其是处理医保数据时,主要挑战在于两类数据(正常和欺诈提供者)的高度不平衡分布。当数据集中负类(多数类)的数据点数量远多于正类(少数类)时,就会出现类别不平衡问题。如果仅考虑准确率指标,模型通常会给出错误结果,且得分可能过于乐观而具有误导性。这是因为少数类点常被视为无信息的异常值,模型会倾向于多数类。

为解决类别不平衡问题,可以采用不同的训练策略,如重采样(过采样和欠采样)、成员概率阈值设定和成本敏感学习。重采样是处理不平衡数据集最常用的方法之一,其中欠采样和过采样是重采样的两种常见策略。多数关于医保数据集欺诈检测的研究使用重采样技术(通常是通过改变采样比率的欠采样技术)来克服类别不平衡问题。不过,这些研究得出结论,欠采样(下采样)比过采样更有效,因为添加新的数据样本会导致过拟合,并增加分类器的训练时间。

因此,本文提出一种基于过采样技术的方法——SMOTE(Synthetic Minority Over - sampling Technique),为少数类创建人工样本。该技术有助于避免随机过采样导致的过拟合问题,随机过采样是将少数实例的精确副本添加到原始数据集中,而 SMOTE 以少数类的一部分数据为示例,创建新的合成相同实例。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值