游戏玩家留存的快速预测

摘要

预测和提高玩家留存率对于移动免费游戏(Free-to-Play)的成功至关重要。本文探讨了在这种背景下快速留存预测的问题。引入了启发式建模方法,作为构建预测短期留存的简单规则的一种方式。与常见的分类算法相比,我们基于启发式的方法使用玩家活动的第一会话、第一天和第一周的信息,达到了合理且可比较的性能。

引言

在免费游戏(F2P)中,预测建模已成为移动游戏行业和研究大规模玩家行为的学术领域中的常见做法。之前的工作开发了各种基于机器学习的模型(Runge et al. 2014; Sifa et al. 2015; Hadiji et al. 2014; El-Nasr et al. 2013; Pittman and GauthierDickey 2010; Thawonmas et al. 2011; Mahlmann et al. 2010; Yang and Roberts 2014; Xie et al. 2015),并且集中在至少有一周或更多玩家数据的情况下(Hadiji et al. 2014; Sifa et al. 2015; Runge 2014)。然而,在商业背景下,能够尽快预测玩家留存具有直接的兴趣。原因有很多,但主要原因之一是F2P游戏通常在安装后的前几天内就失去了大多数玩家(Nozhnin 2013; Runge et al. 2014; Rothenbuehler et al. 2015)。预测对于适当地激励玩家留在游戏中也很重要(Runge et al. 2014)。从本质上讲,解决玩家流失问题有两个步骤:1)预测玩家是否会流失以及何时流失;2)确定如何防止这种情况发生,或者如果认为不可能,推荐给玩家另一个合适的游戏。玩家开始玩新游戏后,越早做出正确的预测,这些知识就越有价值。快速预测使公司能够建立良好的客户关系管理并主动响应用户行为(Runge 2014; Sifa et al. 2015; Rothenbuehler et al. 2015; Xie et al. 2015)。

由于移动游戏行业中的许多公司运营规模较小,他们无法负担内部分析。因此,必须识别简单、节约但有效的预测模型,使预测分析的好处对他们可及。但启发式模型无论公司规模和现金余额如何,都具有价值。特别是当游戏刚刚发布且有大量功能需要开发时,将复杂的预测工作简化为易于实现的决策规则对大公司和小公司都具有价值。为了解决这个挑战,我们引入了启发式建模和预测的概念(Goldstein and Gigerenzer 2009; Gigerenzer and Brighton 2009; Artinger et al. 2015)。启发式是简单、计算快速且稳健的规则系统,通常来源于直觉或直觉与数据驱动建模的结合。它们在多个方面可能是有益的:a)它们易于部署,因为它们通常可以作为客户端设备中的简单规则系统实现;b)它们的计算成本通常低于基于机器学习的模型;c)它们更容易向非分析决策者传达,从而获得组织接受。然而,基于启发式的规则避免了对个体层面的详细预测。这通常使它们在不同环境中的预测更为稳健,但在稳定环境中会导致细粒度预测能力的损失(Chintagunta and Nair 2011; Goldstein and Gigerenzer 2009)。在这里,我们将简单的预测启发式与机器学习模型进行基准测试,以快速预测稳定环境中的玩家留存。

贡献

在这里,我们评估了基于非常短期用户行为(即玩家下载游戏后尽快)预测F2P移动游戏留存的可行性。使用覆盖不同观察窗口的多种机器学习模型开发了留存预测模型。这些模型与使用决策树开发的启发式模型进行了基准测试。模型基于大型移动F2P游戏Jelly Splash的130,000名玩家的数据构建。数据集涵盖了单个用户群在七天内安装游戏的前90天的活动,共超过1500万次会话。准确性随观察窗口而变化:覆盖单次会话的游戏数据预测能力最小。将观察期扩展到游戏的第一天略微提高了预测准确性,最后使用一周的窗口大大提高了模型的预测能力(准确性0.785-0.792)。所有三个模型在特征窗口中表现出相似的准确性,这表明建模非线性关系的优势有限。模型的准确性超过了简单的基于决策树的启发式模型,但并不显著。这表明,使用启发式模型进行快速、经济且稳健的客户端预测在F2P游戏中具有潜力。

相关工作

由于篇幅限制,本节将重点介绍与本文所使用方法直接相关的工作:随着无线通信、银行和保险等多个 ICT 领域的发展,已经开发了流失模型。在游戏领域,之前关于预测玩家行为的研究主要集中在大型多人在线游戏(MMOGs)或免费增值(F2P)移动游戏上。跨游戏的研究非常少,有例外的包括(Pittman 和 Gauthier-Dickey 2010),他们研究了两个 MMOGs,和(Sifa、Bauckhage 和 Drachen 2014),他们研究了超过 3000 款游戏的游戏时间模式。所使用的方法从历史分析、简单预测和多元回归到机器学习技术不等。后者尤其包括决策树、随机森林、支持向量机、神经网络和隐马尔可夫模型(Sifa 等 2015;Runge 等 2014;Hadiji 等 2014;Thawonmas 等 2011;Yang 和 Roberts 2014;Xie 等 2015)。在后者的背景下,之前的工作主要集中在流失预测(Runge 等 2014;Hadiji 等 2014)或购买决策预测(Sifa 等 2015;Xie 等 2015)。(Hadiji 等 2014)引入了不同的视角来研究流失的概念,并训练分类器检测流失,这被定义为一个二元分类问题。作者定义了硬流失和软流失的概念,提供了两种不同的数据生成方法来训练任何分类模型,并展示了五款不同免费增值移动游戏中流失行为的重要因素。同样,(Runge 等 2014)通过比较不同分类器和特征集的性能,预测了两款休闲社交免费增值游戏中高价值玩家的流失。结合参与度建模的监督模型,(Xie 等 2015)专注于使用不同分类器预测两款社交游戏的首次购买。最后,(Sifa 等 2015)特别专注于通过将过程公式化为分类和回归问题的组合来预测玩家未来的购买活动。作者还强调了在分析高级玩家时稀有性的存在,并提供了一种合成过采样解决方案来预测罕见的购买决策。在基于 F2P 的流失预测相关工作中,时间特征的重要性已被强调,例如与每个时间段的会话次数、会话间的时间和会话的平均持续时间相关的特征。与特定游戏设计相关的特征通常被报告为较不重要。

与之前的工作不同,本文的重点是通过考虑启发式方法来快速预测留存玩家,这是因为启发式方法易于实施和解释。启发式是从类似问题的经验中得出的策略,使用易于获取的信息来控制问题的解决。它们可以类比为经验法则。它们通常与经济决策中的满意原则概念相关(Gigerenzer 和 Brighton 2009)。当找到最优解是不可能或不切实际时,可以使用启发式方法来获得令人满意的解决方案。在计算机科学中,当复杂方法的计算负担过重时,也以类似的方式使用启发式方法。(Goldstein 和 Gigerenzer 2009)对其在预测和预报中的应用进行了全面的回顾。(Wubben 和 Wangenheim 2008)在数据库营销中实证研究了其可行性。(Artinger 等 2015)更广泛地详细介绍了其在管理中的应用。本文所呈现的工作可以视为前述作者贡献的一个特例和扩展。

定义:留存及相关术语

本文将短期留存预测操作化为一个二元分类任务:每个玩家将通过我们的基于启发式的决策规则和对比的机器学习模型被分类为留存(1)或流失(0)。我们将留存定义为在游戏曝光的第二周内有任何游戏活动。更具体地说,只有当玩家在安装后的 7-14 天内注册至少一次游戏轮次时,才会被标记为留存。检查玩家游戏曝光的第二周具有几个优点:它有助于识别参与度高的玩家,同时考虑到游戏时间中的可能季节性模式(例如,工作日与周末);它最小化了在玩家已经停止定期游戏后很久才注册单次轮次的脱离实例;它使得在发布后不久训练模型和生成初步预测成为可能,此时新玩家数量最多,留存预测最为有用。

关于上述单一响应,我们考察了几个不同的预测期和分类策略。我们的每个分类器使用玩家从安装日期起到三个特征窗口之一结束时的游戏活动生成留存预测。特征窗口定义为玩家安装日期与三个截止点之一之间的时间间隔:1)玩家第一次会话结束;2)玩家第一天结束;或:3)玩家第一周结束。这些特征窗口代表了游戏曝光和信息内容逐渐增加的时期。

针对每个特征窗口,考察了三种分类策略:i)基于启发式的决策规则;2)之前用于流失预测的几种分类器;3)结合多个分类器结果的集成策略。这里的目标是研究准确性与可操作性之间的关系:观察更多的游戏活动可以带来更准确的预测,但降低了这些预测的整体商业价值,因为那些可能被激励保持参与的玩家可能已经流失(Runge 等 2014;Sifa 等 2015;Hadiji 等 2014;Rothenbuehler 等 2015)。此外,训练传统分类器需要具备专业技能/知识的人员,将用户数据传输到中央位置并从中传输,以及一个初始数据收集期。相比之下,简单的基于启发式的方法可以在发布后立即在客户端设备上部署,且在部署后几乎不需要维护/监控。然而,只有在足够准确的情况下,这些方法才有用(Wubben 和 Wangenheim 2008)。

方法与方法论

数据与预处理

本次分析的数据由Wooga提供,数据完全匿名化,主要包括2014年七天内安装游戏的用户的安装、会话和游戏回合数据。数据来自于苹果iOS平台的游戏《果冻飞溅》。我们观察了该用户群在第一年内的所有游戏会话以及前90天内的所有游戏回合。需要注意的是,会话指玩家在设备上打开应用程序的唯一实例,而所有实际的游戏玩法发生在回合中。玩家可能记录一个没有回合的会话,但所有回合必须发生在会话内。数据集中,有137,397名玩家安装了游戏,其中137,244名玩家(即99.9%)在某个时间点记录了会话(即打开了游戏)。在这些玩家中,只有94.5%记录了至少一个回合(即实际玩了游戏)。我们将分析限制在安装后七天内注册游戏会话并在第一次会话期间至少玩过一回合的用户。这些样本限制排除了安装游戏但从未玩过的个体的混杂效应,同时允许我们在三个特征窗口中使用相同的样本。这些限制将我们的样本量减少到大约112,000名用户。在特征创建和分析之前,进一步排除了少量具有不合理时间戳和/或数据值的记录。

特征定义与工程

创建能够充分捕捉用户特征和行为的特征是任何分类任务中最重要的方面之一。我们没有访问应用内购买或玩家消费数据的权限,因此我们创建的18个特征主要代表安装信息和游戏模式。许多流失预测文献中常用的度量标准得到了体现,以及一些与我们的数据集相关的特定游戏指标。安装度量包括用户的设备类型(例如手机、平板电脑)、地理位置以及是否通过营销活动获得(获取)。游戏玩法度量集中在游戏时间(总天数、总会话数、总回合数、平均会话时长、平均回合时长、总累计游戏时间)、会话间度量(相对于特征窗口结束时的当前缺席时间、会话之间的平均时间)、社交互动(连接的朋友、玩家互动)和回合特定统计数据(平均移动次数、平均星级、最高等级)。安装度量在所有三个特征窗口中是通用的,而每个游戏玩法度量的单独版本仅使用落在每个特征窗口内的会话和回合创建。

启发式模型开发

我们探索了短期启发式方法,使用简单的决策树快速预测玩家在游戏安装几天后是否会保留。使用10折交叉验证来检查基于首次会话、天和周的游戏数据的启发式方法的性能。树的大小被限制在每个启发式方法中的决策规则数量为3或4。结果显示,一天的玩家信息可以相当准确地预测一周或更长时间后的游戏行为。测试了多种特征和评估窗口的组合,以研究数据收集时间与启发式性能之间的权衡。

在1天启发式决策中使用的关键变量是回合数、当前缺席时间和达到的最高等级。树的分裂直观地显示,安装后超过20小时的缺席时间是玩家流失的可靠决定因素。

为了评估启发式方法的稳健性,我们采用了经验方法来研究启发式准确性相对于不同训练数据的敏感性。首先,将整个数据集分成十个独立的块(即互斥的随机样本),其中一个保留为测试集,其余九个用于训练样本。然后分别在九个块中的每一个上训练决策树,并在保留样本上进行测试。

我们还对决策树是否能正确分类与保留样本中玩家行为相似的用户感兴趣。为此,我们通过将保留样本中的每个用户映射到其在保留样本之外的最近邻(在我们的特征空间中)引入了“扰动”,且具有相同的类别标签。(我们选择使用这种“扰动”方法是为了不对流失或保留类别的潜在概率分布的平滑性做出任何假设。)

作为扩展,我们还研究了决策树是否能正确分类与保留样本中玩家行为越来越不相似的用户。为此,我们不仅将玩家映射到之前的最近邻,还映射到玩家的第i个最近邻(0 < i < 10,以下称为扰动级别)在特征空间中的最近邻。

比较每个训练块的结果表明,决策树的性能对训练数据的变化不敏感;我们从第二部分经验研究中得到的证据也表明,决策树的性能对保留样本中的扰动不特别敏感。表2下面给出了每个扰动级别的误分类率范围、平均值和标准差。

短期预测模型开发

在本节中,我们使用三种流行的机器学习分类器对每个研究的特征窗口进行实验评估,以展示我们的流失预测方法。使用上述与每个时间段相关的特征来训练每个分类器,并预测玩家在安装游戏后的第二周是否会留存。我们比较了逻辑回归(LR)、支持向量机(SVM)和随机森林(RF)的结果,以评估不同算法在特定数据集、三个特征窗口和预测任务中的相对优劣。由于对分类器本身的深入讨论超出了本文的范围,我们仅报告关键的方法步骤和发现。

所有LR模型的原始预测器、双向交互和函数形式最初通过基于AIC的逐步搜索程序得出,然后通过使用10折交叉验证误差手动微调以比较候选模型。SVM(核函数、成本、伽玛)和RF(每次分裂的变量数、树的数量)模型的超参数通过网格搜索方法进行调整,评估候选模型的10折交叉验证误差。为了在合理的时间和资源内处理更大的网格大小和额外的候选比较,数据被随机抽样到10,000个观测值进行调优。我们使用整个数据集的10折交叉验证评估每个分类器的相对和绝对性能。为了公平比较不同的分类器,每个模型使用相同的交叉验证分区。此外,我们还检查了三个模型的简单多数投票集成的性能,以评估单个模型的弱点在多大程度上可以通过其他两个模型的强项来克服。

由于原始类别分布为40.5%留存,59.5%表示按类别加权的随机预测的天真基线准确性。考虑到这一基线,我们发现仅使用单个会话的游戏数据的模型几乎没有预测能力。使用第一天的游戏活动时,模型准确性略有提高,而考虑到第一周的游戏活动时,准确性显著提高。有趣的是,所有三个模型在每个特征窗口的总体准确性相似,这表明在我们的数据中建模非线性关系可能没有很大优势。然而,不同模型类型在精度/召回权衡方面存在重要差异,LR模型通常表现出较低的精度和较高的召回率。多数投票集成是总体表现最好的,但由于所有三个模型的相似性,增加的价值很小。

分析与讨论

模型比较

虽然三种机器学习算法的准确性普遍高于简单的启发式决策树,但两种方法之间的性能差异并不显著。对于单会话特征窗口,最佳机器学习算法的准确性仅比简单启发式树高1.2个百分点,F-1得分仅高0.009。对于单日窗口,差异甚至更小:准确性差异为0.3个百分点,F-1差异为0.001。最后,使用一整周的信息,最佳机器学习算法的准确性比启发式提高了0.6个百分点,F-1差异为0.015。这些结果表明,客户端实现的简单决策规则在移动游戏的短期留存预测中是可行的。

我们的模型的预测能力大致在相关文献报告的范围内。查看与我们的实验最接近的留存和特征窗口定义的结果,(Hadiji等人,2014年)对五款不同的F2P游戏的留存F-1得分范围为0.682到0.880。作者使用了类似的机器学习算法,但重要的是,他们可以访问玩家购买行为以增强特征工程。(Rothenbuehler等人,2015年)研究了一个7天移动平均特征窗口,使用类似的留存定义,得到的AUC值范围为79.1到79.6,用于神经网络和SVM模型。这些作者将特征限制为通用会话数据(即不查看特定游戏的度量)。计算我们的7天特征窗口监督学习集成模型的AUC,得到的值为77.4,非常接近上述结果。比较这些结果时应谨慎:每篇论文对流失/留存的定义独特,使用的特征窗口略有不同,并分析了一组不同的移动游戏。

特征重要性

了解特定预测变量与留存概率之间的关系有助于指导干预目标。为此,我们检查了哪些玩家特征总体上和在每个特征窗口中与留存最相关。我们使用成对预测变量-响应相关性、逻辑回归系数和标准误值以及随机森林变量重要性图来评估每个关系的强度、大小和方向。

总回合数和总游戏时间对单会话特征窗口的留存有最强的整体影响。此外,平均星级出人意料地与留存呈显著负相关。我们看到平均时长和平均移动次数呈正相关,留存率也因安装设备类型而异:在平板电脑上安装游戏的用户相对于在手机上安装的用户通常表现出较低的留存率。尽管仅从玩家的首次会话中获得的信息预测能力不强,但上述关系大多是直观的:那些在安装游戏后立即玩得更久的玩家不太可能流失。

查看单日和七天特征窗口,总游戏时间和一致的游戏时间是留存的主要决定因素。总回合数、总会话数和平均时长是最强的正向预测变量,而当前缺席时间、平均星级和会话之间的平均时间是最强的负面因素。对于七天特征窗口,当前缺席时间成为最强的预测变量,主导了回归模型和随机森林变量重要性图。这些结果似乎表明,大量玩家在安装游戏后不久就流失,而那些在第一周内玩得更久且更一致的玩家更有可能在第二周被留存。这些发现与更广泛的文献大致一致。另一个有趣的发现是,与技能相关的度量(较低的平均移动次数、更高的平均星级)实际上与留存概率成反比。这可能代表某些玩家觉得游戏的初始关卡太容易,迅速失去兴趣。然而,后续关卡更难且平均需要更多的移动次数,这可能会混淆这一关系,因为立即失去兴趣的玩家不太可能尝试这些更高的关卡。

识别长期用户的能力

除了识别那些在安装游戏后迅速流失的用户外,这些建模技术还可以用于识别长期的、潜在的高价值客户。识别这些客户并提供有针对性的货币化策略可能与了解哪些用户可能在安装游戏后不久离开一样重要,甚至更重要,因为F2P应用内购买的绝大多数收入是由极少数玩家产生的(Sifa等人,2015年;Runge等人,2014年)。为了大致识别这些长期和潜在的高价值玩家,我们关注60天留存率,即用户在安装游戏后60-67天内是否注册了一局游戏。尽管我们无法直接观察玩家的消费行为,但这一长期留存度量提供了一个简单的定义,用于识别那些持续参与并有可能通过任何针对性干预措施获得最高投资回报的玩家。

在我们的分析样本中,15.2%的玩家被分类为长期留存。查看我们单日模型的结果,27.1%的被预测为短期留存的用户在游戏曝光超过60天后继续定期玩游戏。对于七天模型,31.2%的被预测为短期留存的玩家符合长期留存的定义。尽管这些百分比在绝对意义上可能看起来较低,但将它们与实际短期留存玩家继续成为长期留存玩家的百分比进行基准比较是有用的。被分类为短期留存的玩家中,只有30.9%被额外分类为长期留存,这意味着短期模型的预测实际上在识别长期玩家方面比短期类别标签本身稍微准确一些。本质上,仅使用第一周的游戏曝光来识别长期和潜在的高价值玩家是一个困难的问题。

结论

以前关于游戏中流失预测的研究通常集中在中等长度的观察和预测窗口上。例如,3-14天的观察期和7-14天的预测窗口(Sifa等人,2015年;Runge等人,2014年;Hadiji等人,2014年;Xie等人,2015年)。然而,在许多F2P游戏中,游戏开始时就有大量流失发生,这意味着预测模型构建得越早,设计师(和教育者)就能越早主动激励玩家保持活跃。预测在商业环境中以及从人类动机和注意力研究的角度来看同样有趣。

本文研究了在移动F2P游戏中快速预测玩家留存的可行性,应用了多种机器学习模型跨不同的观察窗口进行比较。模型在观察窗口内表现出相似的准确性。这表明非线性关系的建模仅带来有限的好处。模型的准确性随观察期的长度变化而变化,随着观察期的延长而提高。本文的另一个重点是引入启发式模型概念用于预测玩家行为。可以得出结论,三种高级分类器的准确性超过了从决策树模型派生的简单启发式,但并不显著。这表明可以通过短期的行为信息历史和使用启发式预测方法成功确定玩家留存。最后,这表明游戏中高级分析的大部分价值可能可以通过依赖静态启发式模型来实现。它们的优势在于稳健、易于理解以及易于部署和扩展。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值