从概率到预测:掌握客户终身价值的方法

掌握CLV预测:概率与机器学习方法对比

原文:towardsdatascience.com/from-probabilistic-to-predictive-methods-for-mastering-customer-lifetime-value-72f090ebcde2

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4988a9725eb516e09f249fea3fb6055c.png

我的 iPad 和我又回来了,带来了更多草稿图,这是我的指南(适用于营销人员和数据科学家)的最后一部分,涵盖了所有关于客户终身价值的事情。

再次欢迎回到我的文章系列,“客户终身价值:好的、坏的以及其他 CLV 博客文章忘记告诉你的所有内容。”这一切都基于我在电子商务领域的数据科学团队中领导 CLV 研究的经验,以及我从一开始就希望知道的一切:

  • 第一部分讨论了如何从历史 CLV 分析中获得可操作的见解

  • 第二部分涵盖了 CLV 预测的实际应用案例。

  • 接下来,我们讨论了建模历史 CLV 的方法,包括每种方法的实际优缺点。

从用例示例到实际应用的这一进展,把我们带到了今天的文章,关于CLV 预测:有哪些方法可用,当营销人员和数据科学家尝试将它们应用于自己的数据时,可以期待什么?我们将探讨概率与机器学习方法的比较,每种方法的优缺点,并以一些关于如何开始自己的 CLV 旅程的想法结束。

但首先,让我们提醒自己我们为什么在这里…

CLV 预测的“为什么”…

上次文章重点分析了过去的数据,以调查不同客户群体(称为群体)的消费习惯。我们想要回答像“平均客户在 6 个月后对我价值多少?”以及“不同的群体在购买方面有何不同?”等问题。现在,我们感兴趣的是估计未来 CLV,不仅是在客户群体层面,而且是对单个消费者。

第二部分讨论了你可能想要这样做的原因。大部分动机源于自动化客户管理:可靠的、及时的 CLV 预测可以帮助你更好地理解和服务你的客户群,推动客户沿着“忠诚度之旅”前进,甚至决定哪些客户要“解雇”。CLV 洞察还可以帮助你预测收入,甚至帮助你做出更好的库存决策。查看那篇文章以获取更多想法,以及第一部分,其中充满了帮助你发现你自己的组织 CLV“为什么”的问题。

现在,让我们来看看如何做…

所有这些都听起来很棒,对吧?但它是如何实现的呢?两组技术可以帮助:概率模型机器学习算法。让我们逐一考察。

CLV 预测的概率模型

CLV 预测的概率模型的目标是学习我们客户历史购买数据中的一些特征,然后使用这些学习到的模式来预测未来的支出。具体来说,我们希望学习客户购买频率、购买价值和流失率的概率分布,因为所有这些因素结合起来才能生成任何给定客户的预期未来 CLV。

虽然有多个概率模型可供选择,但“Beta-Geometric Negative Binomial Distribution”模型(或简称“BG-NBD”),是最为人所知且最常应用的。理解它将帮助您了解概率方法的一般原理,因此为了帮助您做到这一点,我现在将深入探讨,但我会用粗体标出最关键的概念。您可以先快速浏览粗体部分,然后再仔细阅读细节。

BG-NBD 模型使用 Beta 分布、几何分布和负二项分布来学习您的客户中典型的购买频率和流失率

  • Beta 分布模拟了“买到死”的过程,即每天,客户抛掷两个硬币:买…还是不买?然后死…还是不?当然,我们并不期望他们真的会“死”。相反,我们假设在某个时刻,客户将决定停止在我们这里购物,或者他们可能完全忘记我们,在那一天,他们将不再是客户,无论他们是否意识到这一点。

  • 几何分布模拟了两次购买之间的时间。

  • 负二项分布模拟了客户在一段时间内进行的总购买次数。它是通过结合多个分布的性质和假设来做到这一点的,包括购买频率的泊松分布和时间之间变异性指数分布。

哎呀,关于分布的讨论太多了。如果您想了解更多,这里有一篇优秀的文章。但只要您理解我们试图做的要点就足够了:我们想使用这些分布来估计任何给定客户在任意给定时间“存活”的可能性,以及他们未来可能进行的购买次数。然后我们只需要考虑支出,我们就可以得到预期的未来 CLV。但问题是,如何做到这一点

有两种方法可以做到这一点。最简单的方法就是取历史平均交易价值

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ebdb30db55995cf3d129a4a672fda934.png

这基于一个简单的假设,即活跃概率和购买价值将在接下来的n次交易中保持相对稳定。但当然,这是不太可能的:p通常在每次购买后都会变化,通常随着客户忠诚度的提高而增加。这在下面的图表中很清楚:蓝色线条是客户“活跃”的概率,红色线条表示购买;每次购买后,蓝色斜率都会变得平缓,因为更高的忠诚度意味着客户更有可能保持“活跃”。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6e203e976af758245beef3b80ef6188d.png

重复购买(红色线条)通常会增加 P-Alive,即客户“活跃”的概率(蓝色线条)。来源:作者基于 Lifetimes 包提供(是的,这个图很难画!)

客户之间的自然变异性进一步受到季节性、全球事件以及各种其他因素的影响。因此,更好的方法是考虑购买价值,并捕捉购物模式的一般变化,包括另一个概率分布,称为“伽马”。以下是它的工作原理:

  • 您的客户群将包括忠诚度高、购买频率高的买家到不经常购买、容易流失的买家。伽马分布代表了您有多少种不同类型的购物者,并为不同的购买行为分配不同的权重。

  • 伽马-伽马模型”使用两层伽马分布。第一层假设每个客户的平均交易额的变化遵循伽马分布。第二层假设这个个体伽马分布的参数(即形状和尺度)本身也遵循另一个伽马分布,反映了整个客户群在消费习惯上的变化。

**伽马-伽马模型通常与 BG-NBD 模型结合使用,以预测未来的货币 CLV。**听起来不错(如果不是非常简单),那么这种方法的实际影响是什么?

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a2ef0200713c4ae5c37119fd21ecd5f1.png

来源:作者提供。

概率模型的优缺点

积极的一面:

  • 经过验证的、可靠的: 这是一个古老、成熟的技巧,已经在多个零售领域成功应用。

  • 具有前瞻性: 您可以开始对未来进行预测,并据此采取行动,以引导您的业务朝着为所有客户提供更高平均 CLV 的方向发展。

  • 使客户流失变得明确: 提高平均客户终身价值(CLV)的最大方法之一是降低客户流失率。这项技术明确地模拟了客户流失,使您能够采取措施来减少它。

  • 它“有道理”:模型参数具有直观的含义,这意味着你可以探索学习到的分布,以更好地理解客户群体的行为。

然而,这些优势也伴随着一些挑战:

  • 它只适用于非合同、连续的购物者;也就是说,没有定期合同,并且可以随时购物的购物者。它可能不适合非合同、离散的买家,例如那些每个周末购买报纸但没有订阅的人。

  • 拟合所有这些分布可能会很 计算密集,尤其是在大型数据集上。

  • 它不是一个时间序列模型:时间序列模型是概率和机器学习模型的类别,旨在了解季节性和趋势。BG-NBD 模型本身并不包含这些功能,尽管我们试图通过 Gamma-Gamma 组件捕捉它们的一些影响。因此,与其完全依赖 BG-NBD 来预测消费者支出,不如做一些专门的时间序列建模可能更好。当然,这会带来额外的复杂性和工作量。

  • 它通常不是以利润为导向的:我经常提到,在 CLV 的“V”方面,重要的是将其视为利润,而不仅仅是美元交易价值。例如,一个经常购买并返回许多商品的客户,因此交易价值很高,但同时也给公司带来了显著的运费,实际上应该被视为低 CLV 客户。不幸的是,BG-NBD 模型并没有明确设计来模拟交易利润。你可以尝试通过放弃 Gamma-Gamma 组件,并使用包含平均交易利润的简单公式来融入它:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/346346d45ea79f99a850632e8635a233.png

  • 计算利润率并不容易(正如第三部分非常清楚地说明了)。你可能希望调查这种模型的变体,这些变体试图处理这个问题,例如Pareto-NBD模型,该模型明确学习交易数量和它们的平均盈利能力之间的关系。然而,我发现这些模型在编码库和最佳实践中支持得不够好,因此实施的学习曲线可能更陡峭。

  • 对首次购买者没有帮助: 如果你只有一次购买的客户,BG-NBD 模型将无法知道他们是否已经“死亡”,或者他们是否会成为未来的不频繁购买者。实际上,只有一次购买的客户将被评定为肯定“活跃”,如下图中明亮的黄色条形所示。当然,这是不现实的:也许他们的那次购买体验非常糟糕,他们永远不会回来。或者也许他们买了一辆保时捷,他们可能不需要再买一辆了。为了帮助你弄清楚这一点,你可能希望将你的概率模型洞察力与对有多少一次性客户的历史分析结合起来,或者第一次和第二次购买之间的典型暂停时间有多长。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/562f330bee2ff1e751b10b188edca9d8.png

基于最近购买频率的典型 CLV 分析图,p(alive)。长期客户(高频率)频繁购买,很可能仍然活跃,这是合理的。然而,只有一次购买的客户(在频率轴上表示为零次重复购买),被评定为 p(alive) = 1(肯定活跃),这是不现实的。来源:作者提供,基于 Lifetimes 包

基于机器学习的 CLV 预测

我们看到,概率方法旨在学习单个特征(如客户消费率)的分布,然后将这些学习到的分布结合起来进行估计。机器学习算法采用类似的方法:我们的目标是学习某些数据中特征之间的关系模式,然后使用这些学习到的模式进行预测

与概率方法相比,可供选择的机器学习算法和架构更多。因此,我将再次尝试使用一个特别著名的方法来阐明一般和关键的概念:RFM 方法,其中 RFM 代表 最近购买频率、频率和货币价值

让我们先澄清一下数据特征之间学习模式的概念。很明显,最近购物(最近性)、经常购物(频率)和花费很多(货币价值)的个人可能是一个高 CLV 客户。但这三个特征究竟是如何结合来预测未来的 CLV 的呢?最近性是否压倒了频率,这意味着如果客户过去经常与你购物(好的频率)但最近完全没有购物(差的最近性),他们已经流失,他们的未来 CLV 实际上变成了$0?这似乎是合理的,但什么样的最近性值通常标志着无回头的点?这个值对于高频率购物者和低频率购物者是如何变化的?我们需要量化每个特征对预测的影响的强度和方向,以便使用它们进行预测

要做到这一点,我们:

  • 将客户购买数据集分为阈值前和阈值后期:例如,前期可以是年度的前 9 个月,后期则是最后几个月。

  • 计算每个客户在阈值前期的 R, F, M 特征(以及可能的其他特征),并计算他们在阈值后期消费的总额(货币价值)

  • 在阈值前期的特征上训练机器学习算法,并使用它来预测阈值后期的货币价值(MV),就像这些数据是未来的数据一样。当然,这并不是真正的未来;它仍然是历史数据,这意味着我们拥有真实值,可以将它们与我们预测的值进行比较。根据预测的准确性,我们的算法将不断尝试,直到它学会使预测接近正确。

由于我们有对于后阈值期的货币价值标签我们可以尝试预测每个客户的这些数据(在机器学习的术语中,这被称为回归问题)。然后我们可以对客户进行排名,将他们分成若干组(当然,基于与市场营销或客户服务专家的合作),企业可以为每组开发定制化的市场营销或客户服务策略。特别是,预测出的客户终身价值非常低的客户可以被视为流失风险,并据此给予特殊处理。

这听起来像是一个很好的计划,但并不完美:首先,预测确切值可能很棘手,特别是如果训练数据量小。此外,如果你无论如何都要根据预测的客户终身价值对客户进行排名和聚类(我稍后会解释你为什么要这样做),那么为什么不尝试直接预测聚类呢?这将使任务成为一个分类问题不仅可能更容易解决,而且输出结果将直接可操作:客户 A 预测将进入最高级别的 CLV 桶;客户 B 预测将进入最低级别的桶;我们立即知道将他们引导到哪个活动或策略。

那么,我们如何将回归问题转化为分类问题呢?当我们计算每个客户的阈值后支出(MV)时,我们需要对这些值进行聚类,分配标签(如低、中、高 CLV),并训练我们的分类器来预测这些标签,而不是基础值。唯一未解决的问题就是:如何聚类阈值后的 MV 值? 答案可能就是简单地排名并分成分位数,例如前 10%,中间 30%,和剩余的 60%。或者,你也可以使用聚类算法:这是一种可以发现在数据集中值簇的另一种机器学习算法。无论你选择哪种方法,都应该基于与领域专家以及那些打算根据项目结果采取行动的人的合作。例如,营销团队可以帮助你决定在开发针对广告活动时,多少分位数或簇是有意义的。

在我们讨论预测 CLV 的机器学习方法优缺点之前,我想澄清一下我们刚才看到的一些观点。

  • 首先,我提到过,你可能会在预测客户的未来 CLV 后对他们进行排名和聚类。你可能想知道,为什么要费这个麻烦?事实上,技术上是可以不这么做,而是基于每个客户预测的个体未来支出创建定制策略。然而,这种方法只有在完全数据驱动和自动化的情况下才是可行的,而这本身就是一个巨大的任务。大多数刚开始进行 CLV 预测的公司可能还没有达到这个水平。

  • 其次,数据从业者应该意识到另一种方法,它涉及对阈值前期间计算的 R、F 和 MV 输入特征进行聚类,并使用聚类标签作为输入特征,而不是原始值。这可能会带来额外的优势,如可解释性:例如,向利益相关者解释,训练好的模型已经量化了最佳 R、F 和 MV 簇中的客户如何产生最佳的 MV 预测,这可能是个不错的选择。但当然,为每个特征找到好的聚类策略会增加额外的复杂性,并且需要大量的额外实验。

  • 第三,关于输入特征,不要局限于最近度、频率和货币价值。几乎任何关于客户的信息都可能对理解他们的购物习惯和预测未来支出有用。所以要有创意,向你的营销和客户服务团队寻求建议:人口统计信息、获取渠道(例如,这位客户是首次在店内还是在线注册的)、奖励计划会员等级、点击的电子邮件、退货次数等等,所有这些都可能对机器学习模型非常有用。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e8c585d2543919e2d0ca8a5df5eb1917.png

来源:作者提供

机器学习方法的优缺点

在正面方面:

  • 它是前瞻性的:就像概率模型一样,机器学习方法允许我们开始做出并采取关于未来的估计和行动。

  • 它很灵活:通过实验提供哪些特征给模型,你可能会获得更准确的结果,使模型能够捕捉到输入数据中的细微模式,这些模式是未来支出的良好预测因素。

  • 它可以解锁更多见解:机器学习模型可以检测到人类难以注意到的复杂模式。数据科学家可以应用可解释性技术来深入了解模型关于每个特定特征如何影响 CLV 所学习的内容,这对营销人员非常有用。例如,如果“频率”值高是未来高支出的强预测因素,公司可以投入额外精力让客户保持关注,并使购买过程尽可能愉快,以便客户不断回头。如果货币价值是模型中更有用的特征,公司可能更专注于交叉销售和升级技术,或其他吸引客户增加支出的方式。

在负面方面:

  • 更难做对:机器学习项目总是增加一定程度的复杂性,使用机器学习进行 CLV 预测也不例外。鉴于所有不同的算法和训练范式、可能使用的不同特征以及不同的输出预测聚类策略,数据科学家有很多事情要考虑。此外,如果你想要定期进行 CLV 预测,你需要一个计划来部署、监控、调试和定期重新训练模型。我个人认为这是一个有回报的挑战:这就是我们的工作作为数据科学家有趣的地方!但这是需要记住的事情,尤其是在向利益相关者解释采用机器学习方法的可行性和预期时间表时。

  • 它没有明确地模拟客户流失:与概率模型相比,这是它的一个缺点。好消息是,你可以自己使用专门的预测模型来模拟客户流失。坏消息(如果你像我一样对待数据科学挑战,这并不是那么糟糕),是它将带来所有我刚才列出的额外复杂性。

总结本 CLV 系列

现在,已经超过 10,000 字,是时候总结这份关于客户终身价值(Customer Lifetime Value)的完整指南了。本系列的前半部分专注于如何在业务中使用 CLV 信息:第一部分讨论了如何从历史 CLV 分析中获得可操作的见解,而第二部分则涵盖了 CLV 预测的实际应用案例。后半部分全部关于实际的数据科学技术:第三部分讨论了建模历史 CLV 的方法,包括每种方法的实际优缺点,而今天的文章则聚焦于CLV 预测:有哪些统计和机器学习方法可用,以及当营销人员和数据科学家尝试将这些方法应用于自己的数据时,可以期待什么?

我以这种方式组织文章,是为了提醒实践者不要直接跳到最复杂的机器学习算法。可能更明智的做法是从历史分析开始,了解到目前为止的故事,并形成关于影响客户支出的假设。您的营销团队可以从这样的信息中采取行动,然后您可能希望转向更复杂、可能更准确的 CLV 预测技术。

就到这里吧!感谢所有阅读这些文章的朋友们。我看到了你们的关注和收藏,非常高兴这些内容对你们有帮助。我为这篇最后的文章延迟发布表示歉意:我一直在忙于编辑和合著一本数据科学和人工智能手册,这是一项巨大的努力,但我非常自豪。如果您想了解这本书的最新进展,请随意在LinkedIn或 X 上与我联系。否则,我期待在未来的数据科学、营销、自然语言处理和科技工作相关的文章中见到您。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值