使用BanditML离线策略评估工具评估新欺诈策略：直接方法实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00167/article/details/148647613

使用BanditML离线策略评估工具评估新欺诈策略：直接方法实践指南

offline-policy-evaluation Implementations and examples of common offline policy evaluation methods in Python. 项目地址: https://gitcode.com/gh_mirrors/of/offline-policy-evaluation

引言

在金融风控领域，欺诈检测系统的策略优化是一个持续的过程。传统方法通常需要将新策略部署到生产环境进行A/B测试，但这可能带来潜在风险。BanditML提供的离线策略评估(Offline Policy Evaluation, OPE)工具允许我们在不实际部署的情况下评估新策略的效果，大大降低了风险成本。

环境准备与数据模拟

首先我们需要导入必要的库并准备示例数据：

import pandas as pd
from ope.methods import direct_method

我们模拟一个现有的欺诈检测系统日志数据，该系统当前策略是当交易欺诈概率(P(fraud))大于5%时拦截交易。为了确保数据包含足够的探索性，系统采用ε-greedy策略，其中ε=0.1，即10%的时间会随机选择动作。

logs_df = pd.DataFrame([
    {"context": {"p_fraud": 0.08}, "action": "blocked", "action_prob": 0.90, "reward": 0},
    {"context": {"p_fraud": 0.03}, "action": "allowed", "action_prob": 0.90, "reward": 20},
    {"context": {"p_fraud": 0.02}, "action": "allowed", "action_prob": 0.90, "reward": 10}, 
    {"context": {"p_fraud": 0.01}, "action": "allowed", "action_prob": 0.90, "reward": 20},     
    {"context": {"p_fraud": 0.09}, "action": "allowed", "action_prob": 0.10, "reward": -20},
    {"context": {"p_fraud": 0.40}, "action": "allowed", "action_prob": 0.10, "reward": -10}    
])

在这个数据集中：

context包含交易特征(这里简化为欺诈概率)
action是系统采取的动作(允许或拦截)
action_prob是采取该动作的概率
reward是奖励值(正数表示正常交易收益，负数表示欺诈造成的损失)

新策略定义

现在我们考虑一个更宽松的新策略：仅当欺诈概率大于10%时才拦截交易。我们需要定义一个函数来计算新策略下各动作的概率分布：

def action_probabilities(context):
    epsilon = 0.10
    if context["p_fraud"] > 0.10:
        return {"allowed": epsilon, "blocked": 1 - epsilon}    
    
    return {"allowed": 1 - epsilon, "blocked": epsilon}

这个函数保持了相同的探索率(ε=0.1)，但改变了决策阈值。对于欺诈概率高于10%的交易，有90%的概率会被拦截；低于等于10%的交易，有90%的概率会被允许。

直接方法评估

直接方法(Direct Method, DM)是离线策略评估中最简单的一种方法。它通过学习一个奖励模型来估计新策略的表现：

results = direct_method.evaluate(
    logs_df, 
    action_probabilities, 
    num_bootstrap_samples=100
)

评估结果会返回两个主要指标：

当前策略(日志策略)的预期奖励
新策略的预期奖励

每个指标都包含平均值和置信区间(通过自助法计算)。

结果分析与解读

在我们的示例中，评估结果可能如下：

{
    'expected_reward_logging_policy': {
        'mean': 3.18,
        'ci_low': -8.98,
        'ci_high': 15.35
    },
    'expected_reward_new_policy': {
        'mean': 1.74,
        'ci_low': -15.14,
        'ci_high': 18.63
    }
}

从结果可以看出：