一、文章主要内容总结
本文聚焦科技公司大规模A/B测试中的决策规则评估问题,核心围绕“如何基于历史实验数据选择能最大化业务核心指标(北极星指标)累积收益的决策规则”展开研究:
- 背景与问题:成熟科技公司(如Netflix)每年运行数千次A/B测试,依赖决策规则将实验结果转化为产品落地决策(如是否上线某功能)。但传统决策规则评估存在两大痛点:一是“赢家诅咒”导致朴素估计量严重偏误(选中的“优胜组”效果因噪声被高估);二是数字实验中信号噪声比低,难以准确估算决策规则对长期核心指标的实际收益。
- 核心框架:提出以“累积收益”(所有历史实验若采用该规则的核心指标总收益)作为决策规则的评估标准,同时设计了基于实验数据分割的交叉验证估计量,将决策选择与收益评估的数据分离,从根本上消除“赢家诅咒”。
- 理论与实证支撑:
- 理论上证明,在实验样本量符合泊松分布的现实场景下,该交叉验证估计量在实验数量增多时能一致选择最优决策规则,且无需依赖单实验样本量无限增大(这与企业用户池有限的实际情况相符);
- 模拟实验验证了该估计量在低信号噪声比场景下的稳定性,且偏误远小于朴素估计量;
- 真实场景应用:在Netflix的123个历史A/B测试中,使用该方法证明新决策规则能使核心指标累积收益提升约33%,直接推动新规则落地。
- 应用场景:可用于选择P值阈值、代理指标(如用短期用户参与度替代长期留存)、安全指标约束等各类决策规则的评估与筛

订阅专栏 解锁全文
4372

被折叠的 条评论
为什么被折叠?



