电商平台价格实验的科学方法解析
电商平台的产品价格反映了需求、季节性和一般经济趋势等一系列因素。定价策略通常涉及考虑这些因素的公式;较新的定价策略通常依赖机器学习模型。
通过某中心的定价实验室,我们可以进行一系列在线A/B实验来评估新的定价策略。由于我们实行非歧视性定价——所有访客在同一时间看到所有产品的相同价格——我们需要随时间对产品价格应用实验处理,而不是同时对不同客户测试不同的价格点。这使实验设计变得复杂。
在一篇发表于《商业经济杂志》并在美国经济学会年会上发表的论文中,我们描述了一些可以进行的实验,以防止溢出效应、提高精确度,并在评估新定价策略时控制需求趋势和处理组差异。
我们可以执行的最简单类型的实验是时间绑定实验,在这种实验中,我们对某个类别中的一些产品应用处理,而将该类别中的其他产品留作未处理的对照组。
时间绑定实验示意图,从第8天开始,红色表示处理组,白色表示对照组
这种类型实验中一个潜在的噪声来源是外部事件——例如,同一产品在不同商店的临时折扣——可能影响处理效果。如果我们能提前定义这些类型的事件,我们可以进行触发干预,将处理和对照期的开始时间与事件的发生时间同步。这可能导致不同产品实验的交错开始时间。
触发实验设计示意图。红色表示处理组,绿色表示对照组。每个实验的开始由外部事件触发
如果产品的需求曲线足够相似,并且处理组和对照组之间的结果差异足够显著,时间绑定和触发实验可能就足够了。但为了更精确地评估定价策略,可能需要在同一产品上运行处理和对照实验,就像典型的A/B测试一样。这需要一种切换实验。
最直接的切换实验是随机天数实验,其中每天每个产品被随机分配到对照组或处理组。我们的分析表明,随机天数可以将实验结果的标准误差——即我们的观察统计量与干预的真实统计量之间的平均差异程度——减少60%。
随机天数实验示意图。实验从第8天开始;红色表示处理,白色表示对照
然而,任何切换实验的一个缺点都是残留效应的风险,即处理的效果从实验的处理阶段延续到对照阶段。例如,如果处理增加了产品的销量,推荐算法可能会更频繁地推荐该产品。这可能会在对照期间人为地提高产品的销量。
我们可以通过在转换到处理和对照阶段时设立黑屏期来对抗残留效应。例如,在交叉实验中,我们可能对组中的一些产品应用处理,将其他产品留作对照,但丢弃第一周的两组数据。然后,在收集足够的数据后——比如两周的数据——我们从之前的处理组中移除处理,并将其应用于之前的对照组。再次,我们丢弃第一周的数据,让残留效应消退。
交叉实验示意图,在实验每个阶段开始时都有黑屏期。在第7周,处理(红色)已应用于产品A、D、F、G和J,但数据被丢弃。在第10周,第一个处理组和对照组交换角色,但同样,第一周的数据被丢弃
交叉实验可以将我们的结果测量标准误差减少40%到50%。这不如随机天数好,但残留效应得到了缓解。
异质面板处理效应
某中心定价实验室还提供了两种更复杂的评估定价策略的方法。第一种是异质面板处理效应(HPTE)。
HPTE是一个四步过程:
- 从去趋势数据估计产品级第一差异
- 过滤异常值
- 使用因果森林从分组产品估计第二差异
- 自助法数据以估计噪声
从去趋势数据估计产品级第一差异:在标准的双重差分分析中,第一差异是单个产品在实验开始前后的结果差异。
然而,我们不是简单地从处理后的结果中减去处理前的结果,而是分析历史趋势以预测如果在处理期间产品未经过处理会发生什么。然后我们从观察结果中减去该预测。
过滤异常值:在定价实验中,经常存在未观察到的因素可能导致我们的结果测量出现极端波动。我们将异常值的截止点定义为结果分布的百分比(分位数),该分位数与数据中产品数量成反比。这种方法以前使用过,但我们在模拟中验证了它。
使用因果森林从分组产品估计第二差异:在DID分析中,第二差异是处理组和对照组的第一差异之间的差异。因为我们考虑的是异质产品组,我们只对具有足够亲和力的产品计算第二差异,以使比较具有信息性。然后我们跨产品平均第二差异。
为了计算亲和力分数,我们使用称为因果森林的决策树变体。典型的决策树是一个连通无环图——一棵树——其每个节点代表一个问题。在我们的案例中,这些问题涉及产品特征——例如,“它需要可更换电池吗?”或“它的宽度是否大于三英寸?”。问题的答案决定了遵循树的哪个分支。
因果森林由许多这样的树组成。问题是从数据中学习的,它们定义了数据显示最大方差的轴。因此,用于训练树的数据不需要标记。
在训练我们的因果森林后,我们使用它来评估实验中的产品。来自处理组和对照组并最终位于树的相同终端节点或叶子的产品被认为足够相似,应该计算它们的第二差异。
自助法数据以估计噪声:为了计算标准误差,我们从数据集中随机抽样产品并计算它们的平均处理效果,然后将它们返回到数据集并再次随机抽样。多次重新采样允许我们计算结果测量中的方差。
溢出效应
在某中心定价实验室,我们还研究了评估溢出效应的方法,当对一个产品的处理导致对另一个类似产品的需求发生变化时,就会发生溢出效应。这可能会使我们处理效果的测量出现偏差。
例如,如果新的定价策略增加了对特定厨房椅的需求,更多客户将查看该椅子的产品页面。然而,这些客户中的一部分可能会购买页面“发现类似物品”部分列出的不同椅子。
如果第二把椅子在对照组中,其销量可能会因第一把椅子的处理而人为增加,导致低估处理效果。如果第二把椅子在处理组中,其销量的人为增加可能导致高估处理效果。
为了纠正溢出效应,我们需要测量它。该过程的第一步是构建具有相关需求的产品图。
我们从根据某中心商店目录中的细粒度分类等标准相互关联的产品列表开始。对于每对相关项目,我们然后查看一年的数据以确定一个价格的变化是否影响另一个的需求。如果这些连接足够强,我们通过在我们的可替代物品图中的边连接产品。
从图中,我们计算任何给定的可替代产品对包含在同一实验中的概率,以及它们将被分配到哪个组(处理或对照)。从这些概率中,我们可以使用逆概率加权方案来估计溢出对我们观察结果的影响。
然而,估计溢出效应不如消除它好。一种方法是将可替代产品视为单个产品类,并将它们整体分配到处理组或对照组。这确实降低了我们实验的效力,但它使我们的业务合作伙伴相信结果没有被溢出效应污染。
为了确定在每个产品类中包括哪些产品,我们使用一种聚类算法,该算法在可替代产品图中搜索密集互连的区域,并切断这些区域与图其余部分的连接。在一个迭代过程中,这将图划分为紧密相关产品的簇。
在模拟中,我们发现这种聚类过程可以将溢出偏差减少37%。
研究领域
经济学
标签
[实验设计, A/B测试]
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
1348

被折叠的 条评论
为什么被折叠?



