1. 背景
营销的价值一直是一个困扰广告主的问题:广告费到底花的值不值?如果不投广告,我的店铺生意会有什么样的变化?在淘系场景中广告流量与自然流量共存的场景下,广告是否会挤占自然流量?这些问题归根结底是,广告主无法有效验证平行宇宙中的另一种对照行为。在淘系竞争的场景下,该问题归结为因果推断中的干预价值问题,主要体现为以下两点:
如果竞得了本次曝光机会,是否有增量价值,引导消费者来店成交
如果放弃参竞本次曝光机会,是否有减量价值,导致消费者去竞店成交,而损失生意机会
以上两个问题都是电商场景中直接影响广告主生意增长的核心,但是在目前广告领域普遍采用last-click归因的逻辑下,很难刻画非末次曝光/点击的价值,可能导致广告主预算的浪费,损害广告主的生意,给平台的流量分配效率也带来很大折损。因此我们希望通过因果推断技术刻画广告投放带来的店铺增量价值,并以此作为营销费用分配的核心锚点,实现广告主生意的良性增长以及平台生态的共赢。
在应用过程中,我们利用因果推断技术估计广告曝光对不同人群的条件因果效应,然后根据估计的条件因果效应进行广告投放策略的制定。通常,我们使用广告投放的效果数据作为观测数据对因果效应进行估计。然而,使用观测数据会受到选择偏差的影响,即个体是否在观测数据中出现并非随机,而是受到各种变量(如广告引擎中的排序机制)的影响。选择偏差会给因果效应估计带来如下危害:
分布偏移问题:观测样本分布并不具备对目标人群的潜在数据分布的代表性,导致利用观测数据估计得到的因果效应不能泛化到目标人群上。
不可识别问题:选择偏差引入了额外的虚假相关性,导致因果推断的可识别性条件不能满足,无法识别未观测数据的因果效应。
在现实场景中,我们可以通过诸如在感兴趣的目标人群上进行强制干预广告是否曝光等方式获取目标人群的代表性试验数据,这部分数据能够反映真实的目标人群分布,是不存在选择偏差的。然而,由于这样的数据收集方式成本较高,导致其样本量相比大规模的观测数据来说非常稀少,直接使用这样小批量的试验数据进行因果效应估计往往会遭遇过拟合等问题,导致估计结果并不鲁棒。为了有效利用大规模具有选择偏差的观测数据集和小规模的无偏试验数据集,实现间距无偏性和鲁棒性的因果效应估计,在本文中,我们从分布外泛化(Out-of-Distribution,简称OOD)的视角重新审视选择偏差问题,并提出了一种结合试验数据和观测数据的耦合生成对抗模型。
论文:ICML&