作者简介
Seven,数据分析师,专注用户增长、数据科学等领域。
一、背景
携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的其他因素进行控制,但这些因素通常是复杂且难以测量的。在关系识别困难的情况下,如何使用更为科学的方法,对策略进行微观和宏观的建模分析,如何系统性的评估各种策略的长期影响,是要解决的重要问题。
在火车票 BG 我们现阶段已经遇到的需要探究因果的问题有五类:产品功能迭代评估、虚拟产品价值评估、精准营销和运营、无 AB 实验增量效果评估、外部环境变化影响评估。
遇到这些问题我们通常有几种方式来解决:
在产品设计上构建正确的 AB 实验,合理计算指标,度量产品功能和迭代的影响;
基于观测数据的因果推断,即从已有实验和非实验数据中提炼因果关系;
通过机器学习算法和数据、实验的结合构造反事实推理来回答长期效应问题。
以上三种方式的核心思想是因果推断。
本文将以携程火车票业务中存在的现实问题为例进行展开,介绍一些携程火车票在因果推断这块的相关工作,主要内容包括:首先,介绍因果推断理论的基本思想和理论框架,让大家从宏观上了解因果推断工具有哪些;其次,讲解我们尝试用因果推断的方法/工具去解决业务核心问题的案例,主要有以下三个较为具体的场景:
用户运营场景中遇到的因果推断问题;
虚拟价值评估场景中的因果推断具体案例;
其他无法做 AB 实验的场景的效果评估。
最后,通过实践我们相应的沉淀了一些工具使用的框架。
二、因果推断的基本思想和理论框架
2.1 基本思想
因果关系首先要区别于我们日常生活中非常常见的相关关系。比如:我们发现医院外面的人比医院里面的人更加健康,这个可以说明“医院与身体健康程度存在相关性”,但可以说“医院是导致身体不健康的原因吗?”,显然是不能的。即只要 A 和 B 经常同时发生,那么说明 A 和 B 存在相关关系,而不能说明 A 和 B 一定存在因果关系。因果性强调的是 A 导致了 B 的发生,因此存在因果性一定存在相关性,反之则不成立(如图 2-1)。
因此,因果推断的核心是在数据中存在关联关系的前提下,考虑数据之间的因果关系。即将因果关系从关联中分割,对因果分析的大小作出正确的估计。
图2-1 相关和因果关系
2.2 理论框架
在因果推断中,有以下两种框架:
Rubin 虚拟事实模型(Potential Outcome)的核心是寻找合适的对照组。通常情况下,我们想要度量用户在被实验影响和不被实验影响这两种情况下结果差异是多少,而对于同一个用户,我们只能观测到被影响/不被影响一个状态,因此需要寻找合适的对照组,估计和衡量无法被观测到的影响。我们通常会构造一些识别实验,比如,互联网常使用 AB 实验,或者根据观测数据使用恰当的方法来寻找对照组。针对观测数据,这里分为两种思想:
构造相似群体(Matching):这种思路假设在未被实验策略影响的样本中存在一些样本与被实验策略影响的样本具有同质性。只要我们想办法找到这些相似的样本作为虚拟对照组,就可以控制外生因素。这种思想最经典的方法是倾向得分匹配法(PSM)。
构造虚拟现实(Synthetic Control):这种思路认为策略的影响其实是策略上了之后的指标表现和“假设策略没上”的平行时空中指标表现的差值。因此,只要通过建模方法构建出假设策略没上的虚拟时空的指标水平,即可评估实验策略收益。典型的方法包括合成控制法(S