1 引言
在过去的十年中,电子竞技(esports)已经成为一种受玩家和观众欢迎的形式,促进了一个庞大的行业和一个不断发展的研究领域 [19, 21, 25, 28, 37, 38]。虽然很难估计电子竞技市场的规模,但Superdata Research预测该市场在2017年将价值11亿美元,并且到2019年将有3.3亿观众,使电子竞技成为游戏学术界和产业的重要研究和发展领域。
虽然没有官方定义,Schubert等人 [25] 提出,电子竞技是指在有观众的竞争环境中进行的任何数字游戏。在电子竞技中,多人在线战斗竞技场(“MOBA”)游戏是一种越来越常见的形式,而《英雄联盟》(“LoL”)是最受欢迎的例子。LoL拥有大约1亿的月度国际玩家群体 [15]。像其他MOBA游戏一样,LoL涉及两支由五名玩家组成的队伍,各自竞争摧毁对方队伍的“基地”(Nexus),这是位于队伍基地的一个物理结构。每个玩家被称为“召唤师”,控制一个“英雄”,这是战斗中的玩家化身。截至撰写本文时,玩家可以选择超过120个英雄。除了对抗五名对手队员外,玩家还必须对抗电脑控制的怪物。击败敌人可以让玩家获得经验和金币,前者允许在当前比赛中解锁更强大的能力,而后者可以用来购买增加力量和表现的物品。
LoL是免费游戏,收入主要来自微交易,其价格范围从2美元到数百美元,允许玩家购买如英雄和英雄皮肤等物品。鉴于这些物品的边际成本几乎为零,即使只有相对少量的玩家进行这些可选购买,LoL也能够非常成功和盈利。2016年,LoL的收入达到17亿美元,是收入最高的免费在线游戏 [30],尽管其每位玩家的平均消费仅为18.88美元,相对于其他MOBA游戏 [29]。
鉴于此,MOBA商业模式依赖于玩家留存,以便继续有玩家进行这些购买。即使只有一小部分玩家群体参与微交易,玩家越多,游戏时间越长,Riot Games(LoL的发行商)的收入就越高。此外,有证据表明,在免费增值游戏中,玩家参与的时间长短似乎与购买发生的机会相关 [17, 39]。这进一步增加了对促进长期玩家留存体验的兴趣。
公司的收入依赖于游戏内购买,这意味着了解游戏结束的预测因素对于LoL和类似游戏的持续财务成功至关重要。能够识别接近离开游戏的玩家特征行为,可以帮助公司知道何时战略性地增加服务或更具体地迎合这些玩家,以防止他们离开 [9, 23]。
因此,本文的贡献在于对LoL中玩家脱离(或“流失”)的关键预测因素进行初步调查。通过将LoL比赛视为一个重要事件,使用生存分析来预测在给定一组独立变量的情况下,从一个比赛(epoch)到另一个比赛(事件)之间将经过多少时间。生存分析通常用于分析各种行业的客户流失,但在游戏分析中的应用较少。具体来说,本文的工作扩展了先前在移动游戏的游戏时间测量和生存分析方面的工作 [34, 36],并将其应用于更复杂的MOBA领域。
为此,应用了三种生存分析技术并比较了它们产生的结果:Kaplan-Meier估计、标准Cox回归模型和混合效应Cox回归模型。这些技术与包括最近平均比赛时间、最近平均比赛间隔时间和最高赛季段位在内的时间性玩家行为特征一起使用。这些特征主要与特定游戏无关,使得本文提出的流失分析方法可以轻松转移到更广泛的MOBA类型。
本文其余部分如下:第2节提供了跨多个行业的客户流失的更多详细信息,以及使用生存分析来识别流失的关键指标。第3节描述了本文使用的生存分析模型,第4节介绍了使用的数据集和生存分析模型中使用的主要特征。第5节提供了分析结果,并在第6节中对结果的解释和未来工作的方向进行了更深入的讨论。
2 相关工作
这项研究建立在游戏研究、网络科学和机器学习的长期研究链之上,其起源于管理大型多人在线游戏(MMOG)网络和服务器负载的努力。作为早期工作的代表,Chambers等人 [4] 最初通过挖掘客户端-服务器数据流来研究在线游戏的服务器负载。Tarng等人 [32] 和其他人扩展了这一领域,调查了人们为何离开游戏以及这与游戏时间的关系。早期对MMOG和其他在线游戏的时间模式的研究,通常一次研究一两个游戏,导致了最近的大规模调查,例如Sifa等人 [26] 的研究,他们在数千个游戏中发现了游戏时间与玩家流失之间的模式。游戏时间模式的发现,包括会话间隔、会话长度、总游戏时间等指标的重要性,与游戏行业中免费增值商业模式的增加采用相匹配,并引入了使用行为遥测预测玩家行为的想法。这反过来最近引入了对游戏中玩家行为进行预测分析的想法 [9, 17, 23, 27, 35, 39],包括最近的生存分析 [34, 36],以及通过这种类型的调查可以获得的见解。在这些主题的文献中,玩家离开被称为“流失”,离开的玩家被称为“流失者” [9],采用了电信行业的术语。
在本节中,我们首先讨论了最近在分析和预测视频游戏流失方面所做的工作。强调了不同游戏类型之间的可用数据和玩家行为的差异,以及为解决这个问题使用的各种技术。然后介绍了在其他行业中使用生存分析技术进行流失预测,以展示其在非游戏环境中的成功应用,同时也指出其在玩家流失问题上的有限使用。
2.1 游戏中的流失分析
文献表明,行为和环境因素都是决定流失可能性的关键组成部分。对在线游戏中玩家流失的研究至少可以追溯到十年前,例如Feng等人 [7] 在Eve Online(一款科幻大型多人在线角色扮演游戏,MMORPG)中研究了这个问题,使用流量分析来检查2003-2006年游戏早期的数据。他们的结论之一是,玩家流失随时间增加,游戏会话之间的时间是“识别即将退出的玩家”(即流失)的可靠手段。Kawale等人 [14] 研究了其他玩家的社会影响对流失的影响。在MMORPG游戏Everquest II的背景下,发现通过结合玩家的会话长度(行为)和网络影响(环境)的分析,相比单独分析其中一个因素,流失预测的准确性显著提高。玩家的网络影响被建模为一个由两个分量组成的向量,一个是负面影响,另一个是正面影响,反映了玩家对游戏的倾向。他们发现,修改的扩散模型优于简单扩散模型和基于网络和参与特征的分类方法。然而,即使是最佳变体,其精度也刚刚超过50%,表明他们的方法还有很大的改进空间。玩家社交网络的重要性在SuperData [3] 进行的研究中得到了进一步的探讨。该调查发现,玩家倾向于成群放弃游戏,34%的流失玩家表示他们离开游戏是因为“朋友停止玩”。
Borbora等人 [1] 采用了基于数据分析和玩家动机理论的方法来预测可能流失的玩家。使用各种游戏玩法特征(如任务参与率)来训练决策函数,以确定玩家是否会流失。他们发现,基于理论的方法几乎与基于数据的方法一样准确,并声称前者更易于领域专家理解。他们还发现,单一分类算法可能无法识别所有可能的流失者。Runge等人 [23] 专门研究了社交游戏中的高价值玩家,其中高价值玩家被定义为所有付费玩家中排名前10%的玩家。他们评估了各种流失预测方法,包括使用隐马尔可夫模型和神经网络,使用来自两个游戏Diamond Dash和Monster World的数据集。他们发现,经过一些修改的单层隐含神经网络在预测可能流失的玩家方面表现最佳。他们随后在Monster World的背景下使用这一方法,识别出可能流失的玩家,并应用策略劝阻他们离开游戏,取得了一些可测量的成功。
2.2 其他行业中的流失
流失不仅是在线游戏的问题。客户留存被广泛认为比恢复流失客户的成本更低 [8],Reichheld [20] 表示,在金融服务行业中,“客户留存率提高5%会带来超过25%的利润增长”。可以理解的是,关于流失预测和影响客户留存的因素,已经进行了广泛的研究和分析。在对在线赌博行业的研究中,Coussement和De Bock [5] 分析了行为和人口统计因素,使用随机森林模型和广义加性模型(GAM)对在线赌博行业进行了研究。根据对流失预测能力的排名,共有30个驱动因素(27个行为因素和3个人口统计因素),排名前三的变量是自上次投注以来的天数、自上次净亏损以来的天数以及相对于关系长度的投注会话数。
用于分析电信行业和信用卡提供等领域客户流失的统计模型包括逻辑回归和决策树分析,通常在遇到横截面数据时使用 [2],[11],[18],[33]。在逻辑回归的情况下,通常选择一个任意阈值(特定于上下文)作为流失点,这导致一个二元响应变量,表示主体是否已流失。然后使用自变量来预测二元结果的概率。对于决策树分析,历史数据根据一组条件组织成层次结构,每个节点分配一个概率。Nie等人 [18] 比较了这两种技术在使用中国银行收集的信用卡数据预测流失方面的应用。分析的数据包括客户、卡片和风险信息以及交易活动。发现逻辑回归方法在性能上优于决策树算法。此外,用于客户留存建模的不同类别的统计模型通常根据数据类型分为“静态”和“动态”。静态模型应用于横截面数据,通常包括逻辑回归、线性回归和神经网络,而动态模型倾向于捕捉纵向数据,包括贝叶斯方法和生存分析 [40]。
2.3 流失预测的生存分析
在建模纵向数据时,生存分析是一种常见的方法,在许多行业中广泛使用。Lu [16] 在其关于“竞争激烈”的电信行业的研究中应用了生存分析技术。具体来说,该研究应用了参数回归模型来估计生存和风险函数,以提供有关客户流失率的信息,并识别高风险流失客户。Kaminski和Geisler [12] 使用生存分析来了解美国多所大学科学和工程副教授的留任情况,通过分析从最初雇用到离职的时间。此外,通过Zhang [40] 在零售银行客户数据上应用Cox比例风险模型,他发现增加客户服务使用、交叉购买、任期经验和复杂产品使用导致客户留存时间延长。
在游戏行业中应用混合效应Cox回归进行流失分析似乎不太常见,几乎没有公开可用的证据表明这一点。本文的目标是了解某些行为特征对玩家继续玩LoL的可能性的影响。具体来说,通过分析影响下一场比赛之间时间速率的因素,可以将与下一场比赛时间较长相关的行为特征作为潜在流失的领先指标。通过提供对比赛持续时间、连续比赛之间的时间和玩家技能对风险率影响的更深入了解,电子竞技公司将更好地了解如何为表现出这些特征并因此有流失风险的玩家引入有针对性的策略。鉴于Riot Games及其他电子竞技公司商业模式对通过游戏内购买产生的收入的依赖,必须尽早识别这些特征,以便采取必要的行动。
3 生存分析模型
在对纵向数据进行建模时,生存分析是一种常见的方法,广泛应用于许多行业。它用于预测事件发生前经过的时间,并基于潜在的影响特征进行预测。在传统的医学意义上,这个事件通常是反应、缓解或死亡。在我们的上下文中,类似的负面事件可能看起来是玩家的流失。然而,没有特定的时间点定义“流失事件”的发生,因此在我们的分析中,这个事件被反转;事件是玩家进行一场《英雄联盟》比赛。这意味着,如果玩家在从起始时间到当前时间间隔内没有进行游戏,则被认为是“存活”。因此,生存分析用于预测玩家再次进行比赛的时间长度。因此,如果预测玩家“存活”时间很长,那么很可能他们已经流失,并且不会返回,或者至少对游戏失去兴趣,暂时不会回来。
生存分析计算生存函数,该函数给出了主体在某个时间 t t t 之后存活(未进行游戏)的概率: S ( t ) = P ( T ≥ t ) S(t) = P(T \geq t) S(t)=P(T≥t)。相反,风险函数用于给出在特定时间步长上事件(进行游戏)发生的概率,前提是它尚未发生,也称为瞬时失效率: h ( t ) = − ∂ ∂ t log S ( t ) h(t) = - \frac{\partial}{\partial t} \log S(t) h(t)=−∂t∂logS(t)。这两个量可以相互推导,因此它们是等价的。然而,本文重点关注风险函数,因为随着时间的推移,风险率的下降意味着玩家返回游戏的概率在下降。它也可以被视为玩家自主返回游戏的概率下降,因此可能需要开发者(Riot Games)的激励措施来促使其返回。
我们首先使用 Kaplan-Meier 估计器在群体水平上对生存函数进行建模。然后,我们使用标准 Cox 回归模型和混合效应回归模型研究行为变量的影响。使用的所有模型将在接下来的部分中介绍。
3.1 Kaplan-Meier 估计器
生存分析通常面临与数据相关的困难。例如,一些个体在研究期间没有经历“事件”,因此不知道他们在经历事件之前经过了多长时间,或者是否经历了事件。此外,一些个体可能决定在研究结束前退出。这些类型的未知数据被称为截尾数据。尽管存在这些困难,计算随时间推移的生存概率的最简单方法是 Kaplan-Meier 估计器 [13]。生存概率根据在时间 t t t 之后存活的观测数除以给定时间间隔内风险集中的总观测数来估计。Hosmer Jr 和 Lemeshow [10] 用以下公式总结了这一点:
S ( t ) = ∏ t i ≤ t ( n i − d i n i ) , ( 1 ) S(t) = \prod_{t_i \leq t} \left( \frac{n_i - d_i}{n_i} \right), \quad (1) S(t)=t
基于生存分析的《英雄联盟》玩家流失预测

最低0.47元/天 解锁文章
2108

被折叠的 条评论
为什么被折叠?



