作者简介
Ryan,携程算法专家,专注个性化推荐、智能营销等领域;
小白,携程算法工程师,研究智能营销、用户增长等领域。
一、背景
互联网蓬勃发展的今天是流量为王的时代,但随着流量红利逐渐消失,获客成本的日益增高,用户留存成为各大互联网公司的重点关注问题,其中流失用户的召回在当今的流量红海市场中显得尤为关键,为此,基于大数据和机器学习的智能营销技术应用而生。
携程火车票业务每周都会有短信营销活动,旨在通过对近期未下单的老客发送短信将其召回,促进复购,提升用户粘性(业务流程如图 1 所示);原有业务策略是基于规则的方式随机从满足条件的用户池中选择一部分进行短信投放,针对该方法过于粗放、召回效果不佳、短信发送 ROI 不高的问题,我们分阶段提出基于 Response Model 的转化率预估模型、基于 Uplift Model 的短信敏感度预估模型,逐一对问题进行更科学的定义、拆解和优化。
图1 携程火车票短信召回业务流程图
二、问题定义
上述短信召回业务需要解决的核心问题可抽象概括如下:
定义:在满足条件的老客用户池(假设用户规模为 N )中,通过策略或者模型筛选出 K 个用户(在短信成本约束下,K 通常小于 N ),对这些用户发送短信后,提升整体的转化率和短信发送 ROI。
三、解决方案
3.1 基于 Response Model 的转化率预估模型
针对上述问题,在只有基于业务策略的短信发送历史记录的情况下,我们首先尝试通过构建一个基于 Response Model 的转化率预估模型预测用户被短信营销影响后的下单概率,进而选择下单概率高的那部分用户进行短信投放,该方法可形式化描述如下:
V1
目标:在 N 个用户中寻找 K 个短信投放后下单概率最高的用户。
方法:根据历史短信发送记录构建短信触达后用户的转化率预估模型(考虑到样本规模以及连续特征占比较高,我们采用 XGBoost ),对目标用户群进行打分,选出前 K 个下单概率最高的用户(标签定义:发送短信后,用户下单则为正样本,未下单则为负样本)。
实验方案:如图 2 所示,先将 N 个用户随机等分为两组 A 和 B。
a. 对照组: 在 A 组中随机选择 K/2 个用户进行短信投放;
b. 实验组:在 B 组通过转化率预估模型预测打分,按分值由高到低筛出前 K/2 个用户。
评价指标:离线:AUC,TopK 的召回率;在线:用户转化率、短信发送 ROI。
图2 v1 实验方案流程图
该方案实验后,实验组相比对照组在上述评价指标上均取得大幅提升,但仔细分析后发现存在两个比较明显的问题:
a. 评价指标不合理:转化率预估模型选择的用户相比随机选择的用户,在下单概率方面具有天然的偏置;
b. 实验方案不合理:未能排除用户自然召回因素的影响(部分人群不管是