数据DS岗位,超干货面试经验分享

随着AB实验在决策环节起到的作用日趋重要,面试环节对于AB实验的要求也在不断的提升。以往对AB实验基本原理的理解,以及计算最小样本量等基础问题,已经无法满足候选人对于实验能力要求的考察。

本文结合过往的学习思路,以及在滴滴科学中台领域的实践经验,总结了一些觉得比较“掉书袋”的问题, 希望能为正在准备春招的同学们提供帮助。

需要补充的是,这些问题通常出现在初级到中级的面试中,随着经验的增长,面试中更常见的是具体场景的分析,这要求候选人提供基于实验的认知和理解。

Q:为什么 AB 实验要看 P-value?

解析:这是初阶DS岗位候选人面试,几乎都会被问到的一个问题,考察候选人对于 AB 实验,假设检验的理解。不仅对其中的统计学原理要有足够的理解,还要有对非技术的同学进行清晰的解释的表达能力。

A:P值是一个统计学指标,用于评估实验结果的统计显著性。在AB测试中,我们比较两组(A组和B组)的性能指标,例如点击率、转化率、用户留存等等,以确定是否有显著的差异。P值可以帮助我们回答以下问题:

1. 差异是否由随机性引起?当我们进行AB测试时,A组和B组的用户分配通常是随机的。如果我们观察到A组和B组之间的性能差异,我们需要确定这种差异是否只是由于随机性引起的。P值衡量了观察到的差异在纯随机情况下发生的概率。如果P值很小,那么可以得出结论,观察到的差异不太可能仅仅是由于随机性导致的,从而表明可能存在真正的影响。

2. 差异是否足够大?即使观察到差异,它是否足够大,以至于在实际应用中具有重要性?P值不仅告诉我们是否有差异,还可以告诉我们这个差异的大小和重要性。

3. 是否有足够的证据支持假设?在AB测试中,通常有一个原假设(null hypothesis)和一个备择假设(alternative hypothesis)。原假设通常是指A组和B组之间没有差异,而备择假设则是指A组和B组之间存在差异。P值可以告诉我们是否有足够的证据来拒绝原假设,即是否有足够的证据表明A组和B组之间的差异是真实存在的。

4. 实验指标之间的变化是否可比?相较于直接看指标自身的变化,P值更像是对实验结果的一种标准化处理,从而可以对指标之间比较。通常我们会限定同一类人群的同一个业务动作进行对比。

Q:一类错误和二类错误分别是什么,哪个错误更严重,在 AB 实验中,是否有办法可以同时降低一类错误和二类错误?

解析:本题考察的是候选人对于统计学概率的基本理解,统计实验的设计能力以及对于业务的理解。

A:一类错误和二类错误分别是假说检验中两种不同类型的错误。

  • 一类错误【假阳性】:当原假设为真时,在检验中,错误的拒绝了原假设。简称“去真”。

  • 二类错误【假阴性】:当备择假设为真时, 但在检验中,未能拒绝原假说。简称“存伪”。

通常来说,我们会认为二类错误会更严重一些。一类错误相当于认为实验组和对照组无显著差异,而二类错误,意味着我们错过了一个给用户带来正面效果的策略。 受到显著性水平α的影响,一类错误和二类错误之间存在权衡关系(tradeoff)。

在实践中,通常来说,降低一类错误,会增加二类错误,反之亦然,我们一般会策略如下的策略来进行优化:

1. 增大样本量:更大的样本量可以有效的提高检验的功效(),同时保持显著性水平不变。

2. 提高测量的精度(即降低方差):目前常用到的降低方差的方法,就是微软在论文中提到的用户分层以及Cuped的方法。

3. 触发实验,对于满足实验条件的人群进行策略的干预。按照类型说,主要分成两种:

1)特征触发,对于满足某一类特征的人群进行策略干预, 比如策略仅针对中老年用户。那么我们的评估也是应该仅仅针对这一部分人群。

2)条件触发,对于满足在功能上满足一定条件的人群进行策略的干预, 比如我们对于“亲密付”功能进行一定的优化,那么只需分析使用到亲密付的人群即可。 

除此之外,额外补充一点,我们需要理解业务显著性和统计学显著性的差异。此处参考谢梁老师[1]给出的例子。

但是如果不先预设期望,而是通过实验发现,增加了57元的月流水,且P-value=0.001 ,在统计意义上是显著的,但是从业务逻辑上这个是毫无意义的。

在进行指标提升的过程中,我们是要考虑ROI的,如果为了57元的提升,投入的成本是在千万级别,那么这个提升就是得不偿失的。即使能得到显著性的差异,我们也不能轻易地对其进行资源的倾斜。 

从统计本身去理解的话,我认为这里很好的解释了我们在统计学中遇到的第二类错误。当流量足够大,强撑起统计学意义上的显著性,但是两者对对比的数据绝对值上的差异却很小(effect size),这种结果在实际意义上,没有太大的说服力,而且会很大程度误导刚刚接触实验的实验操作者。

关于第二类错误,这里有一个常见的误区需要了解。假设最小样本量需要10w,但实验在样本量仅达到5w的时就观察到显著结果,这种情况下的实验结果是否可信?答案是不可信,我们要以满足最小样本量为前提, 否则可能存在由于多次观测,导致一类错误膨胀。

Q:当前进行了一个1%流量的实验,核心指标显著,业务方决定推全,并留有5%holdout对照组,但是推全后,实验效果不明显,分析其中的原因。

解析:这是一道比较经典的AB实验面试题,其核心考点为是否能识别出干预实验评估效果的关键节点,并对实验评估作出准确的判断。

A:对AB实验的流程进行如下的划分:设定实验目标并提出假设,定义实验评估指标体系明确关键指标,确定分流的方式及节点并进行样本量的测算,AA检验(AA回溯)、实验效果评估这几个部分。在分流环节中,可能出现的问题有:

  • 由于没有进行AA检验,数据桶本身存在差异

1. 存在Carry over效应(携带效应),及分流对象中,部分用户携带之前实验带来的影响。

2. 用户没有均匀的分流, 用户不同质(题主见过的最随意的分流,是按照uid的末尾的奇偶来分实验组和对照组的)。

  • SUTVA(个体处理稳定性假设)不成立

1. 实验组和对照组存在直接或者间接关系。在这样的情况是是不能采取随机分流的方式进行实验分析的。通常这类问题是出现在一些双边匹配的场景。例如视频内容分发和出行市场供需匹配(分单)的场景。在滴滴的处理SUTVA的方式就是采取时间片的方法。分单引擎可能对于刚刚接触的同学来说可能还是稍微有一点难理解,这里列举一个更容易理解的仅参考的例子。在考试场景中,假设声称对学生进行加分可以让学生去更好顺位的班级。对学生进行分流,保证实验组和对照组的考试分数一致,策略相似。在实验评估中发现,实验组的学生确实可以去到更好班级。借此将策略推全,结果发现,当所有学生都加分了之后,学生去的班级和之前相比并没有变化,相当于都没加分。这是因为实验组的学生通过加分的方式,“抢夺”了对照组的学生的顺位。当实验推全后,不存在任何的对照组,因此实验无效。

  • 实验流量域与大盘流量存在较大的差异,该实验结果不具备代表性

1. 问题通常出现在特定的流量域进行实验,在大盘层面不具备可复制性。在题目中提到,仅选用了1%的流量,在流量不均的情况下,可能1%的流量无法代表大盘的表现。例如1%的流量中,女性用户占比高于大盘中女性用户占比。

2. 除了特定的流量域外,分流节点同样会影响到流量的结果。例如,我想做一个和“亲密付”相关的实验,是选择进端分流的方式,还是在进入支付界面后再进行分流?如果选择后者,且流量占比1%的情况下,实验组的流量和大盘结构本身就存在较大的差异。因此推全后并不能看到指标显著的变化。

3. 还有一种特殊情况,即大盘流量本身存在较大的波动,例如app还在流量的上升期,用户结构存在大量的新用户。

Q:什么是MDE?MDE的参数如何设置,如何提高AB实验的灵敏度?

解析:本题考察的是关于最小可检测单元和实验灵敏度,常涉及到的考点是计算最小样本量,实验解。灵敏度与MDE是相对应的概念,MDE(minimum detectable effect)最小可被检查单元,表示在一定显著性水平下,实验能够检测到的最小效应量,即指标提升的阈值。

A:假设实验的提升效果是0.5%,但是实验的MDE是1%,因此实验结果会被当作没有显著效果而放弃。所以,在明确了MDE后,在有效的资源内(时间成本,计算成本,流量成本等),如何提高实验灵敏度,是实验特别重要的任务。对于实验的操作人员,在指标设计环节,要重点关心指标的选择,对实验观测的影响。

如果MDE越大,说明期望的精度越低,比如:我们想检测一个100%的提升,检测这么大的提升,是很容易和随意误差所区分开的,但随着互联网的红利消失,往往我们的检测到的提升是有限的。因此在设定MDE的时候,要根据业务目标进行综合的判断(或多或少就是一种关乎信心的判断)。

关于如何提高AB实验的灵敏度,我们可以从边际误差的公式入手 Zα/2σ/(n) ,根据公式可知,提升灵敏度的方法主要有两种,一种是降低方差,一种是增加样本量。考虑到成本的原因,往往增加样本量不是我们最优的选择,通常涉及到重要的实验的时候,我们才会主动考虑扩流来增加实验的可信性。而减少方差的话,目前实验平台主流的方法主要从如下方面入手。

  • 数据清洗:剔除样本中的离群值、非人为产生的数据(机器人)。

  • 触发分析:上述中有提及,这里就不再赘述。

  • 选择指标:在指标选择环节,在衡量相近问题时,往往倾向于选择方差小的指标。例如人均播放时长和人均播放次数,通常我们会更关注后面的那个指标。除此之外,我们也会考虑对指标进行标准化,例如将指标进行0-1处理等。

  • 选择实验分组:通过分组,控制变量,或者CUPED的方式,来降低组内方差。

希望以上内容,能够为你的面试准备提供有价值的参考,也欢迎你关注”滴滴技术”公众号,获取更多相关数据科学内容,同时也诚邀你加入滴滴,共同探索数据科学的最前沿。 

[1]:谢梁《业务显著性与统计显著性》

*https://mp.weixin.qq.com/s/uuBVGb6ElrdwO3dtX4ySvA

本期有奖互动

欢迎在评论区中,分享你“数据岗位”的面试经验,小编将选出10位同学,送上滴滴技术的周边双肩包🎒。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值