我们拓展大量新算法可以通过引入一个在线实验的初始剪枝阶段来进行测试,其满足两个属性:1对排序函数质量高度敏感,也就是确定最好算法只用很小的样本集。 2 在第二阶段预测的成果在于:在第一阶段衡量的度量对齐于核心的A/B评估度量。
通过使用交叉存取技术,动态加速试验过程。第一阶段筛选最有希望的排序函数,第二阶段只使用这些筛选的函数,允许我们分配更少的成员到整体试验并减少整体试验持续时间。
使用一个重复的度量设计去决定偏好
我们设计一个实验去确定人们更加偏好coke还是pepsi。当我们使用传统A/B测试,我们可能随机划分人群到两个组。一个组只提供coke另一个组只提供pepsi(都没有可辨识的标签),我们通过衡量两个组在soda的消费量来衡量不同。在这衡量中的不确定程度,可以告诉我们是否具有明显不同。
这方法尽管可以工作,但可以限定一个度量,首先度量不确定性的主要来源:人群中的soda消费量的广泛不同。第二soda重消费者可能代表一小部分人群,但他们占了很大比例的总体soda消费量。因此即使一小重度消费者不平衡两可以对结果有不合适的影响。
在现实推荐中也有相似的问题,这些度量包括流媒体时长,或者是否将图片分享到社交软件中。