健康保险欺诈检测与实时美国手语解读技术探索
健康保险欺诈检测
在健康保险领域,欺诈行为的检测至关重要。为了有效识别欺诈案例,提出了一种基于特征选择的模型。
1. 数据预处理
- 原数据集存在不平衡因素,少数类仅占 10%,这影响了学习器的性能。为解决此问题,构建了修改后的数据集。
- 采用 SMOTE(合成少数过采样技术)生成少数类样本,以平衡数据集。
- 使用顺序前向选择(Sequential Forward Selection,SFS)技术,根据特征重要性选择特征,不断添加特征直到不再影响目标标准。
- 对修改后的数据集进行随机采样,得到训练集和测试集。
2. 机器学习技术应用
- 训练集通过多种机器学习技术进行处理,包括 KNN、LDA、ANN、AdaBoost、GBM、Bagging 和 Stacking。
- 测试集用于评估,以确定欺诈案例。
- 获取分类器的性能指标,以找到最适合该数据集的欺诈检测学习技术。
3. 性能指标
- 准确率(Accuracy) :所有真实结果(包括真正例和真反例)占所有检查案例的比例。公式为:$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
- 灵敏度(Sensitivity) :正确预测的正例观察值占所有正例观察值的比例,也称为召回率或真正例率。公式为:$Sensitivity = \frac{TP}{TP + FN}$
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



