基于深度概率模型的用户生命周期价值预测
作者:Xiaojing Wang, Tianqi Liu, Jingang Miao
摘要
根据用户的属性和过去的购买行为准确预测其未来的生命周期价值(LTV)可以实现更以用户为中心的营销策略。营销人员可以根据预测的LTV将用户分成不同的类别,从而定制营销信息或广告文案,以更好地服务于不同类别的用户。此外,LTV预测还能直接指导营销预算的分配,并改进广告展示的实时定位和竞价。
LTV建模的一个挑战是,有些用户流失后不再登录,其LTV的分布可能具有重尾特性。常用的均方误差(MSE)损失无法适应一次性购买者的显著零值LTV比例,并且对高消费用户的极大LTV值非常敏感。在本文中,我们将LTV的分布建模为零点质量和对数正态分布的混合,我们称之为零膨胀对数正态(ZILN)分布。这种建模方法使我们能够同时捕捉流失概率并考虑LTV的重尾特性。它还提供了点预测的不确定性量化。ZILN损失可以用于线性模型和深度神经网络(DNN)。对于模型评估,我们建议使用归一化Gini系数来量化模型的区分能力,并使用十分位图来评估模型校准情况。通过实证,我们在两个真实世界的公共数据集上展示了所提出模型的预测性能。
1 引言
市场营销人员越来越需要在较长的时间范围内(如一年、两年甚至五年)准确预测用户的未来购买行为。这种长期预测通常被称为用户生命周期价值(CLV或LTV)。LTV预测不仅有助于公司的财务规划,还能为营销决策和用户关系管理(CRM)提供指导。有了LTV预测,用户可以轻松地被分为不同的价值类别。随后,营销人员可以决定如何改进营销支出的分配,并确定促销优惠、个性化用户信息、独家优惠、忠诚度奖励计划和“白手套”用户服务待遇的理想目标受众。
关于现有用户LTV预测的文献已经相当丰富。许多发展围绕RFM(Recency, Frequency, Monetary Value,即最近购买、购买频率、货币价值)框架的扩展(Khajvand et al., 2011)。最著名的方法是Buy Till You Die(BTYD)模型族(Fader et al., 2005b; Fader & Hardie, 2009)。这是一种用于重复购买和用户流失的概率生成模型。假设用户流失和购买行为都遵循某种随机过程。多种变体(Schmittlein et al., 1987; Fader et al., 2005a; 2010)存在,以处理离散时间购买事件数据或减少计算负担。
在本文中,我们专注于新用户的LTV预测,这方面的研究相对较少。预测新用户的LTV对广告业务至关重要。例如,营销人员可以将预测视为关键绩效指标(KPI),并随着时间的推移进行监控,以持续评估用户获取营销活动的表现。BTYD模型族不适用于新用户,因为它使用频率和最近购买来区分用户。而新用户的购买频率和最近购买是相同的。预测信号必须从其他地方提取——要么是用户注册时获得的用户属性,要么是初次购买的产品或服务类型。
我们通过监督回归来预测新用户的LTV。与BTYD模型族相反,监督回归利用所有用户级别的特征。它不尝试建模用户流失或重复购买的底层动态,而是最小化指定的预测误差。对于回归任务,许多标准的机器学习方法都可以使用,包括线性回归、随机森林、梯度提升、支持向量机。我们选择深度神经网络(DNN)作为我们的主力工具,因其具有竞争力的表现以及捕捉预测特征与LTV之间复杂和非线性关系的能力。
对于财务规划来说,预测总体业务指标相对容易。然而,准确预测单个用户的LTV则要困难得多。这个回归问题主要有两个数据挑战。首先,许多用户是一次性购买者,再也不会购买,导致许多零值标签。其次,对于回头客来说,LTV是波动的,LTV的分布高度偏斜。少数高消费用户可能占总用户消费的很大一部分,这体现了80/20法则的精神。
尽管均方误差(MSE)在回归建模中占据主导地位,但在LTV预测的背景下,它并不是处理这些数据挑战的理想选择。MSE忽略了LTV标签是零值和连续值的混合事实,并迫使模型学习两个分布的平均值。平方项对异常值也非常敏感。大多数大规模训练算法使用随机梯度下降,从训练样本的小批量中计算出的噪声和偶尔爆炸的梯度很容易导致数值不稳定或收敛问题。
我们提出了一种基于零膨胀对数正态(ZILN)分布的混合损失。该损失通过设计处理零值和极大LTV标签。
与传统回归模型相比,结合ZILN损失的DNN架构有几个优势。首先,它能够同时预测流失概率和LTV值。它减少了构建两阶段模型的工程复杂性(Vanderveld et al., 2016)——一个用于预测重复购买倾向的二元分类模型,随后是一个用于预测第一阶段预测的回头客LTV的回归模型。其次,它提供了LTV的全概率分布,从而允许点预测的不确定性量化。
对于模型评估,我们建议使用归一化Gini系数来衡量模型区分高价值用户和低价值用户的能力。由于其对异常值的鲁棒性和更好的业务解释,它比MSE更受欢迎。我们还建议使用十分位图来定性地衡量模型校准。
本文的其余部分组织如下。第2节简要回顾相关工作。第3节介绍了提出的DNN模型及其ZILN损失。我们在第4节描述了用于模型评估的归一化Gini系数和十分位图,并在多个公共领域数据集上实证展示了提出的模型。最后,第5节总结了我们对LTV预测模型的讨论。
2 相关工作
Gupta等人(2006)对LTV方法进行了全面回顾。他们提供的证据表明,机器学习方法如随机森林(Breiman, 2001)比历史上流行的RFM和BTYD模型表现更优,因为它们可以结合各种额外的特征。
Vanderveld等人(2016)和Chamberlain等人(2017)使用两阶段随机森林模型来预测电商网站用户的LTV。第一阶段预测购买倾向——即用户在指定时间窗口内是否会购买的二元分类。第二阶段预测在第一阶段预测为会购买的用户的购买金额。两阶段方法是构建LTV预测的一种自然方式,并提供了对驱动LTV的不同因素的洞察。主要缺点是维护两个模型的复杂性增加。
另一种两阶段方法是分别为购买频率和平均订单价值(或利润)构建回归模型,然后将它们结合成LTV预测模型(Venkatesan & Kumar, 2004)。这种策略也可以在RFM和BTYD框架中找到。Fader等人(2005b)假设最近购买和频率符合帕累托/负二项分布(Pareto/NBD),购买价值则遵循独立的Gamma/Gamma分布。然而,这种分解依赖于一个不稳定的假设,即订单价值与购买频率独立。在实践中,例如,频繁购买者可能每次购买的花费较少。
许多研究人员更倾向于直接预测LTV的方法,这更直接且通常能带来更高的预测准确性(Gupta等人,2006)。Malthouse & Blattberg(2005)使用LTV作为回归模型中的因变量。作者还考虑了LTV的各种变换,包括Box-Cox变换(Sakia, 1992),以稳定回归模型中的方差,平方根或对数变换以使LTV的分布不那么右偏。然而,这些变换使得预测结果在设计上存在偏差。例如,由于Jensen不等式,对数变换变量期望的指数不大于原始变量的期望。
Benoit & Van den Poel(2009)提倡一种分位数回归方法,该方法对响应变量的条件分位数(如中位数)进行建模,而不是标准最小二乘回归的条件均值建模。使用标准均值回归技术,每个用户返回一个LTV的单点估计。然而,这个点估计不包含关于观测值围绕预测值分散的信息。基于渐近正态性可以获得预测区间,但分位数回归提供了一种更有原则的方法来量化与LTV预测相关的不确定性。例如,可以通过预测的第5和第95百分位数给出LTV的90%预测区间。
Chamberlain等人(2017)认识到LTV的异常分布。大部分用户的LTV为零。对于LTV为正的用户,其值相差几个数量级。作者通过对LTV的百分位数排名建模并随后将其映射回实际值来解决这个问题,以用于下游任务。Sifa等人(2018)在自由游戏玩家的LTV预测背景下解释了类似的问题。只有一小部分用户曾经购买过,并且驱动了大部分收入。作者建议使用合成少数类过采样技术(SMOTE)(Chawla等,2002)训练DNN,以获得更好的预测性能。SMOTE是一种数据增强技术,在模型训练阶段创建少数类的合成实体,以正则化预测模型并学习表示少数类实体的结构。
Chamberlain等人(2017)发现,具有足够隐藏单元的DNN可以达到与随机森林相当的性能。作者还表明,对于用户流失预测,宽深模型(Cheng等人,2016)可以进一步提高性能,因为它结合了宽线性模型(用于记忆)和深度神经网络(用于泛化)的优势。
3 带有ZILN损失的DNN模型
回归标签是初次购买后固定时间范围内用户的总消费金额。我们排除了首次购买的价值,因为我们主要关注用户的未来剩余价值。为了避免季节性波动,最好使用确切的预测年数。实际上,预测范围通常是1年、2年或3年。由于构建训练标签所需的历史数据长度,长期模型通常不可行。例如,Vanderveld等人(2016)和Chamberlain等人(2017)选择预测1年的预测范围。
回归特征可以从各种来源提取。当可用时,购买历史通常是特征工程的主要来源。其他常见特征包括用户人口统计、用户群组、退货历史、用户服务的质量指标。Vanderveld等人(2016)使用最终购买决策前的用户参与度来预测电商网站用户的LTV。这些特征包括营销邮件的打开和点击次数、交易展示和搜索次数。Sifa等人(2018)使用与活动相关的指标预测免费游戏玩家的LTV,如会话次数、回合数和游戏天数、购买的游戏内货币数量;行为的时间模式,如首次和最后一次会话之间的时间、会话间和天间时间分布;元特征,如来源国家、设备类型、操作系统和用户获取渠道。Chamberlain等人(2017)将手工特征与从用户产品浏览的会话和应用日志中学习到的无监督神经嵌入相结合。最终的模型不仅了解领域知识,还能从原始数据中学习用户行为的丰富模式。
我们选择DNN作为LTV预测的主力工具,原因有三:性能、灵活性和可扩展性。DNN在计算机视觉、语音识别、推荐系统、自然语言处理等多个领域取得了近期的成功。从其在在线数据科学竞赛中的流行度来看,DNN在表格数据上具有非常有竞争力的性能,因为它能够捕捉特征与标签之间复杂且非线性的关系。DNN也非常灵活。可以轻松定制其损失函数,使其成为我们ZILN损失的理想模型。它可以优雅地处理所有类型的特征,包括数值特征、类别特征甚至多值特征。稀疏的类别特征可以编码为嵌入并以监督方式学习。深度学习框架如TensorFlow和Pytorch提供了高度可扩展的DNN实现,能够处理拥有数百万甚至数十亿用户的非常大数据集。

图1:典型LTV分布的示意图。很大比例的用户是一次性购买者。回头客的LTV可能会有数量级的差异。
LTV标签的分布对标准的MSE回归损失提出了一些挑战。我们在图1中展示了某典型在线广告商的用户LTV分布。零值的巨大峰值表明有大量一次性购买者,其LTV为零。对于回头客来说,LTV的范围也很广。少数高价值用户的消费金额比典型用户高出几个数量级。MSE可能会对高价值用户的预测误差进行过度惩罚。模型训练也可能变得不稳定并对异常值敏感。将MSE损失替换为分位数损失可以缓解异常值问题,但模型将无法再预测均值LTV,而这通常是需要的。
我们提出了一种混合损失,该损失源自ZILN分布的负对数似然。这样的混合损失能够同时学习购买倾向和货币价值。由此产生的模型的工程复杂度是两阶段模型的一半——通常是一个二元分类模型用于预测购买倾向,然后是一个回归模型用于预测被预测为购买的用户的货币价值(Vanderveld et al., 2016)。重尾对数正态分布仅取正值且具有长尾,是建模回头客LTV分布的自然选择。从数学上讲,对数正态损失(记为 LLognormalL_{\text{Lognormal}}LLognormal)源自具有均值 mumumu 和标准差参数 σ\sigmaσ 的对数正态随机变量的负对数似然:
LLognormal(x;μ,σ)=log(xσ2π)+(logx−μ)22σ2 L_{\text{Lognormal}}(x; \mu, \sigma) = \log(x\sigma\sqrt{2\pi}) + \frac{(\log x - \mu)^2}{2\sigma^2} LLognormal(x;μ,σ)=lo

最低0.47元/天 解锁文章
6801

被折叠的 条评论
为什么被折叠?



