使用BanditML离线策略评估工具评估新欺诈策略:直接方法实践指南

使用BanditML离线策略评估工具评估新欺诈策略:直接方法实践指南

offline-policy-evaluation Implementations and examples of common offline policy evaluation methods in Python. offline-policy-evaluation 项目地址: https://gitcode.com/gh_mirrors/of/offline-policy-evaluation

引言

在金融风控领域,欺诈检测系统的策略优化是一个持续的过程。传统方法通常需要将新策略部署到生产环境进行A/B测试,但这可能带来潜在风险。BanditML提供的离线策略评估(Offline Policy Evaluation, OPE)工具允许我们在不实际部署的情况下评估新策略的效果,大大降低了风险成本。

环境准备与数据模拟

首先我们需要导入必要的库并准备示例数据:

import pandas as pd
from ope.methods import direct_method

我们模拟一个现有的欺诈检测系统日志数据,该系统当前策略是当交易欺诈概率(P(fraud))大于5%时拦截交易。为了确保数据包含足够的探索性,系统采用ε-greedy策略,其中ε=0.1,即10%的时间会随机选择动作。

logs_df = pd.DataFrame([
    {"context": {"p_fraud": 0.08}, "action": "blocked", "action_prob": 0.90, "reward": 0},
    {"context": {"p_fraud": 0.03}, "action": "allowed", "action_prob": 0.90, "reward": 20},
    {"context": {"p_fraud": 0.02}, "action": "allowed", "action_prob": 0.90, "reward": 10}, 
    {"context": {"p_fraud": 0.01}, "action": "allowed", "action_prob": 0.90, "reward": 20},     
    {"context": {"p_fraud": 0.09}, "action": "allowed", "action_prob": 0.10, "reward": -20},
    {"context": {"p_fraud": 0.40}, "action": "allowed", "action_prob": 0.10, "reward": -10}    
])

在这个数据集中:

  • context包含交易特征(这里简化为欺诈概率)
  • action是系统采取的动作(允许或拦截)
  • action_prob是采取该动作的概率
  • reward是奖励值(正数表示正常交易收益,负数表示欺诈造成的损失)

新策略定义

现在我们考虑一个更宽松的新策略:仅当欺诈概率大于10%时才拦截交易。我们需要定义一个函数来计算新策略下各动作的概率分布:

def action_probabilities(context):
    epsilon = 0.10
    if context["p_fraud"] > 0.10:
        return {"allowed": epsilon, "blocked": 1 - epsilon}    
    
    return {"allowed": 1 - epsilon, "blocked": epsilon}

这个函数保持了相同的探索率(ε=0.1),但改变了决策阈值。对于欺诈概率高于10%的交易,有90%的概率会被拦截;低于等于10%的交易,有90%的概率会被允许。

直接方法评估

直接方法(Direct Method, DM)是离线策略评估中最简单的一种方法。它通过学习一个奖励模型来估计新策略的表现:

results = direct_method.evaluate(
    logs_df, 
    action_probabilities, 
    num_bootstrap_samples=100
)

评估结果会返回两个主要指标:

  1. 当前策略(日志策略)的预期奖励
  2. 新策略的预期奖励

每个指标都包含平均值和置信区间(通过自助法计算)。

结果分析与解读

在我们的示例中,评估结果可能如下:

{
    'expected_reward_logging_policy': {
        'mean': 3.18,
        'ci_low': -8.98,
        'ci_high': 15.35
    },
    'expected_reward_new_policy': {
        'mean': 1.74,
        'ci_low': -15.14,
        'ci_high': 18.63
    }
}

从结果可以看出:

  1. 当前策略的平均预期奖励为3.18,而新策略为1.74,表明新策略表现略差
  2. 两者的置信区间有较大重叠,说明差异可能不显著
  3. 新策略的下界(-15.14)比当前策略(-8.98)更低,表明新策略可能有更大的潜在风险

决策建议

基于评估结果,我们可以得出以下结论:

  1. 不建议直接将新策略部署到生产环境,因为它可能降低系统整体表现
  2. 由于置信区间较宽,可能需要收集更多数据来提高评估的准确性
  3. 可以尝试评估其他阈值(如7%或12%)的策略,寻找更优解

技术要点总结

  1. 探索性数据的重要性:离线评估需要日志数据包含足够的探索性,否则评估结果可能不可靠
  2. 直接方法的局限性:直接方法简单但可能有偏差,特别是当新策略与日志策略差异较大时
  3. 置信区间的解读:重叠的置信区间意味着我们需要谨慎对待评估结果
  4. 策略设计原则:在定义新策略时,保持适当的探索率(ε)对于后续评估至关重要

通过BanditML的离线策略评估工具,我们可以在不实际部署的情况下,安全地评估和比较不同欺诈检测策略的效果,为决策提供数据支持。

offline-policy-evaluation Implementations and examples of common offline policy evaluation methods in Python. offline-policy-evaluation 项目地址: https://gitcode.com/gh_mirrors/of/offline-policy-evaluation

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丁绮倩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值