数据挖掘在财政欺诈检测与数据缩减技术中的应用
在当今的数据驱动时代,数据挖掘技术在各个领域都发挥着重要作用,尤其是在财政欺诈检测和数据仓库的数据处理方面。下面将深入探讨相关技术和策略。
财政欺诈检测中的分类器构建与评估
在财政欺诈检测中,分类器的构建和评估是关键环节。通常,分类器在训练集上会偏向多数类,这可能导致少数类的误分类问题。为了解决这个问题,有两种主要的方法。
- 少数类复制 :在训练集中,分类器往往偏向多数类。在我们的案例中,多数类是“car = negative”。为了减少假阴性(FN)错误,可以人为地复制正元组,直到两类达到平衡。
- 自适应提升 :构建一系列分类器,第 k 个分类器基于第 k - 1 个分类器的错误构建。不同分类器的多数投票决定新元组的分类,投票根据分类器的准确性进行加权。这种技术能显著降低误分类率。
为了评估这些构建技术,我们展示了两个分类器:
分类器 A
- 构建方法 :使用原始训练集,因此分类器构建偏向训练集的多数类,即负类。采用“最小化假阳性(FP)”策略,不使用误分类权重,并使用 10 树自适应提升来减少误差。
- 混淆矩阵 :
| | 分类为负 | 分类为正 |
| — | — | — |
| 实际为负 | 70 | 4 |
| 实际为正 | 8 | 11 | - 质量指标
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



