使用BanditML离线策略评估库进行欺诈策略评估：基于IPS方法的实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00181/article/details/148647609

使用BanditML离线策略评估库进行欺诈策略评估：基于IPS方法的实践指南

offline-policy-evaluation Implementations and examples of common offline policy evaluation methods in Python. 项目地址: https://gitcode.com/gh_mirrors/of/offline-policy-evaluation

引言

在金融风控领域，欺诈检测系统的策略优化是一个持续的过程。传统方法需要将新策略部署到生产环境进行A/B测试，但这会带来潜在风险。BanditML提供的离线策略评估(OPE)工具包允许我们在不实际部署的情况下评估新策略的效果。本文将重点介绍如何使用逆倾向评分(IPS)方法来评估一个更宽松的欺诈检测策略。

环境准备与数据模拟

首先需要导入必要的库和模块：

import pandas as pd
from ope.methods import inverse_propensity_scoring

我们模拟一个生产环境中的欺诈检测系统日志，该系统会拦截欺诈概率大于5%的交易。为了确保离线评估的有效性，生产策略采用了ε-greedy探索机制(ε=0.1)，即10%的时间会随机选择动作。

logs_df = pd.DataFrame([
    {"context": {"p_fraud": 0.08}, "action": "blocked", "action_prob": 0.90, "reward": 0},
    {"context": {"p_fraud": 0.03}, "action": "allowed", "action_prob": 0.90, "reward": 20},
    {"context": {"p_fraud": 0.01}, "action": "allowed", "action_prob": 0.90, "reward": 10},    
    {"context": {"p_fraud": 0.09}, "action": "allowed", "action_prob": 0.10, "reward": -20}, # 由于探索机制允许了欺诈交易
])

新策略定义

我们计划评估一个更宽松的策略：仅当欺诈概率大于10%时才拦截交易。首先需要定义这个新策略的动作概率函数：

def action_probabilities(context):
    epsilon = 0.10
    if context["p_fraud"] > 0.10:
        return {"allowed": epsilon, "blocked": 1 - epsilon}    
    return {"allowed": 1 - epsilon, "blocked": epsilon}

然后计算新策略在历史数据上采取相同动作的概率：

logs_df["new_action_prob"] = logs_df.apply(
    lambda row: action_probabilities(row["context"])[row["action"]],
    axis=1
)

IPS评估实施

使用IPS方法评估新策略的表现：

results = inverse_propensity_scoring.evaluate(
    logs_df, 
    action_probabilities, 
    num_bootstrap_samples=100
)

评估结果会返回两个策略的预期收益及其置信区间：

记录策略(expected_reward_logging_policy)
新策略(expected_reward_new_policy)

结果分析与解读

从评估结果可以看出：

新策略的预期收益(-37.42)明显低于当前策略(2.98)
这种差异主要源于新策略允许高欺诈概率交易通过的概率增加
虽然置信区间有重叠，但结合业务理解可以判断新策略确实表现更差

技术要点解析

探索机制的重要性：生产策略必须包含一定的随机探索(如ε-greedy)，否则无法准确评估未采取过的动作。
IPS方法原理：通过比较新旧策略的动作概率比来重新加权观察到的奖励，从而估计新策略的表现。
置信区间的作用：通过自助法(bootstrap)计算置信区间，帮助我们判断评估结果的可靠性。
数据局限性：对于某些上下文-动作对，我们可能缺乏足够的数据，这会影响评估的准确性。

最佳实践建议

在实施离线评估前，确保生产日志包含足够的探索数据
对于关键业务决策，考虑结合多种OPE方法进行交叉验证
当评估结果不确定时(置信区间重叠)，收集更多数据或设计更保守的策略变更
始终结合业务理解解读评估结果，避免完全依赖统计指标

总结

通过BanditML的离线策略评估工具，我们能够安全地评估一个更宽松的欺诈检测策略，发现其表现不如当前策略，从而避免了潜在的生产环境风险。这种方法不仅适用于金融风控领域，也可广泛应用于推荐系统、广告投放等需要策略优化的场景。

offline-policy-evaluation Implementations and examples of common offline policy evaluation methods in Python. 项目地址: https://gitcode.com/gh_mirrors/of/offline-policy-evaluation

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考