朴素贝叶斯分类:从理论到垃圾邮件过滤实践
一、朴素贝叶斯在欺诈检测中的应用
在处理具有多个特征的数据时,测量某些指标可能会变得困难,特别是当有更多特征加入时。假设我们做一个简单的假设,即假设各个特征相互独立,不考虑促销代码和礼品卡之间的相互作用,只关注它们各自与欺诈的相互作用。
在这种情况下,数学计算会变得简单很多。我们可以得到公式:
[P(Fraud, Gift, Promo) = P(Fraud)P(Gift | Fraud)P(Promo|Fraud)]
为了进一步简化,我们可以在后续使用一个神奇的 (Z) 进行归一化,(Z) 是所有类别的概率之和。此时模型变为:
[P(Fraud | Gift, Promo) = \frac{1}{Z}P(Fraud)P(Gift | Fraud)P(Promo | Fraud)]
我们可以通过比较欺诈和非欺诈的概率,来判断一个订单是否为欺诈订单。以下是相关概率的表格:
| | 欺诈 | 非欺诈 |
| — | — | — |
| 存在礼品卡 | 60% | 10% |
| 使用多个促销代码 | 50% | 30% |
| 类别概率 | 10% | 90% |
根据这些信息,如果一个订单同时使用了礼品卡和多个促销代码,其欺诈的概率为 62.5%。虽然我们无法确切知道这能在需要审核的订单数量上节省多少,但可以确定的是,我们使用了更好的信息并做出了更好的判断。
然而,这里存在一个问题。当欺诈订单使用多个促销代码的概率为零时,由于朴素贝叶斯分类器依赖于将所有独立概率相乘来进行分类,如果其中任何一个概率为零,最终的概率也将为零
超级会员免费看
订阅专栏 解锁全文

1137

被折叠的 条评论
为什么被折叠?



