2025KDD-Evaluating Decision Rules Across Many Weak Experiments

UnknownBody

于 2025-12-29 09:30:00 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily Best Papers 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/156188269

LLM Daily 同时被 2 个专栏收录

1784 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

24 篇文章

订阅专栏

一、文章主要内容总结

本文聚焦科技公司大规模A/B测试中的决策规则评估问题，核心围绕“如何基于历史实验数据选择能最大化业务核心指标（北极星指标）累积收益的决策规则”展开研究：

背景与问题：成熟科技公司（如Netflix）每年运行数千次A/B测试，依赖决策规则将实验结果转化为产品落地决策（如是否上线某功能）。但传统决策规则评估存在两大痛点：一是“赢家诅咒”导致朴素估计量严重偏误（选中的“优胜组”效果因噪声被高估）；二是数字实验中信号噪声比低，难以准确估算决策规则对长期核心指标的实际收益。
核心框架：提出以“累积收益”（所有历史实验若采用该规则的核心指标总收益）作为决策规则的评估标准，同时设计了基于实验数据分割的交叉验证估计量，将决策选择与收益评估的数据分离，从根本上消除“赢家诅咒”。
理论与实证支撑：
- 理论上证明，在实验样本量符合泊松分布的现实场景下，该交叉验证估计量在实验数量增多时能一致选择最优决策规则，且无需依赖单实验样本量无限增大（这与企业用户池有限的实际情况相符）；
- 模拟实验验证了该估计量在低信号噪声比场景下的稳定性，且偏误远小于朴素估计量；
- 真实场景应用：在Netflix的123个历史A/B测试中，使用该方法证明新决策规则能使核心指标累积收益提升约33%，直接推动新规则落地。
应用场景：可用于选择P值阈值、代理指标（如用短期用户参与度替代长期留存）、安全指标约束等各类决策规则的评估与筛

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。