使用生存集成模型进行流失预测

I. 引言

近年来,随着社交网络和智能手机的普及,游戏经济发生了变化,催生了一种新型视频游戏:社交游戏。社交游戏面向的是新的玩家群体:休闲玩家,采用了一种新的货币化模式:免费增值(F2P或freemium),这种模式现在在所有移动平台上占据主导地位 [2], [14]。免费增值模式包括免费提供游戏,通过应用内购买收费来实现货币化。

对于社交游戏来说,玩家保留是成功货币化的关键,并且增加社交互动,从而帮助推动游戏的采用和保留玩家。此外,获取新玩家的成本不断增加 [14],并且可能显著超过保留现有玩家的成本。

本研究的动机在于能够预测玩家何时会离开游戏,从而采取激励措施重新吸引他们并防止流失,或者将他们转移到公司的另一款游戏中。

流失预测在电信、金融、零售、付费电视和银行领域已经被广泛研究,如 [55], [58] 所示的广泛文献综述所示。它也在电子商务 [60], [61] 以及员工保留 [51] 方面进行了研究。

在视频游戏领域,开创性的研究在 [29], [31] 中提出。然而,他们主要关注的是MMORPG(大型多人在线角色扮演游戏)。MMORPG 是第一种成功的在线社交游戏类型,但它们针对的是更狭窄的受众,主要使用基于订阅的货币化模式。这意味着可以将流失测量为合同的正式终止,类似于上述提到的行业,除了电子商务之外。

免费增值(F2P)货币化是移动社交游戏使用的主要模式,涉及非合同关系。在这种情况下,流失不是通过明确声明终止合同来清楚地确定的。对于最活跃的玩家,我们可以将流失定义为长时间的不活跃。然而,这个问题与电子商务中的流失略有不同。实际上,不活跃的用户总是可以回到电子商务网站,而不活跃的移动玩家可以卸载游戏,这将对应于一个明确且最终的流失状态。然而,这些信息通常是不可用的。在非合同环境中流失的定义在 [10] 中进行了讨论。关于F2P应用程序流失定义的全面讨论超出了本文的范围,是专门研究的主题 [10]。

[19] 中提出的工作是第一个研究F2P游戏中流失预测的研究。[19] 介绍了问题的一般定义、一组独立于游戏内容的特征以及分类器的比较。[48] 中展示的第二项研究专注于F2P游戏中高价值玩家的流失预测。[48] 详细研究了问题定义和分类器评估,尽管它仅从二元分类的角度处理问题。它使用了一种假设数据分布的算法,这通常不符合流失数据的常见形态。进一步的,[49] 和 [47] 尝试解决移动游戏中流失预测的数据时间性问题。

本文的工作重点是预测在视频游戏行业中通常称为鲸鱼的高价值玩家的流失。关注这一点的动机在于,鲸鱼的行为与普通玩家不同,包括他们的生存曲线,如图2所示。由于他们通常是最活跃的玩家,即几乎每天都玩,我们可以轻松地将他们的流失定义为长时间的不活跃。他们的高参与度还允许收集更多关于他们活动的数据,使他们更可能对采取的防止流失的措施作出积极回应。最后,从商业角度来看,鲸鱼玩家约占玩家的0.15%或付费用户的10% [28],他们特别重要,因为他们是占应用内购买收入50%的顶级消费群体。

本研究选择的游戏是由Silicon Studio开发的《Age of Ishtaria》,它代表了成功的移动社交游戏,拥有数百万玩家。

A. 我们的贡献

传统的流失研究方法将问题视为二元分类:玩家是否再次连接到游戏(例如 [3])。尽管二元模型非常直观,但它们无法预测玩家何时会停止玩游戏,此外,特征仅限于提供静态(非时间性)信息。

为了建模流失时间,传统方法如回归分析仅在所有玩家都停止玩游戏时才适用。对于包含每个用户不完整信息的数据,挑战在于一些用户仍在玩游戏。

本研究改进了之前的研究 [19], [48],使用了一种适当的技术来处理截尾数据(关于流失时间的不完整信息的观察) [34],并捕捉流失预测挑战的时间维度。

我们基于生存集成的模型输出了玩家流失时间的准确预测,并提供了影响玩家退出的风险因素信息。此外,本文建议的方法不仅给出了可能流失玩家的列表,还为每个玩家生成了一个生存概率函数,让我们知道流失概率如何随时间变化。这个特性使我们能够区分不同级别的忠诚度档案,即将流失、近期流失和远期流失,以及影响这种生存行为的变量(考虑到只要玩家连接到社交游戏,他们就被视为“存活”)。

从这个生存函数中提取出中位生存时间,并用作预期寿命阈值。这个特性使我们能够将玩家标记为有流失风险,提前采取行动保留有价值的玩家,并最终改进游戏开发以提高玩家满意度。

据我们所知,我们是第一个在社交游戏领域使用生存集成方法全面建模流失预测的人。我们的模型提高了传统生存方法(如Cox回归)的准确性、鲁棒性和灵活性,并且旨在在实际业务环境中可用。

II. 生存集成模型

A. 生存分析

生存分析由一组统计技术组成,传统上用于预测医学和生物研究中个体的预期寿命 [15], [26], [35]。这些方法也被应用于多个行业来预测客户流失,主要在电信 [36]、银行 [54] 和保险 [16] 领域。

生存分析专注于研究事件发生的时间及其与不同因素的关系。最初在医学研究中,事件是个体的失败或死亡,但在我们的案例中,它是玩家离开游戏的时刻。事件发生的时间也称为生存时间。

生存分析的一个基本特征是数据是截尾的。截尾表示观察结果不包括关于事件发生的完整信息。这意味着对于一定数量的玩家,我们不知道事件发生的时间(因为他们尚未经历),即测量值仅包含事件是否在给定时间 ttt 之前发生的信息。

生存函数 S(t)S(t)S(t),即玩家在某个时间 ttt 存活的可能性,可以通过非参数的 Kaplan-Meier 估计器 [30] 来估计,其中流失概率可以直接从记录的截尾生存时间中计算出来。

如果在研究期间 TTTkkk 个玩家在不同的时间点 t1<t2<t3…<tkt_1 < t_2 < t_3 \ldots < t_kt1<t2<t3<tk 流失,并且假设流失事件彼此独立 [9],则可以通过从一个时间到下一个时间的存活概率相乘来获得累积存活概率:

S(tj)=S(tj−1)(1−djnj) S(t_j) = S(t_{j-1}) \left(1 - \frac{d_j}{n_j}\right) S(tj)=S(tj1)(1njdj)

其中 S(0)=1S(0) = 1S(0)=1njn_jnj 是在 tjt_jtj 之前存活的玩家数量,djd_jdj 是在 tjt_jtj 发生的事件数量。我们将得到一个阶梯函数,其值在每次流失时发生变化。

关于该主题的进一步分析包括竞争风险的存在 [43]。它们属于一种特殊的时间到事件模型,其中可能有多个失败事件。这些替代事件可能会阻止观察到主要感兴趣的事件。在本研究中,我们专注于对游戏失去兴趣,这是流失的主要原因。然而,玩家可能会因为丢失手机或死亡而停止玩游戏,这些被视为竞争风险事件。

其他半参数生存技术,如著名的截尾观察回归方法,Cox 比例风险模型 [11]–[13],或参数方法(例如加速失效时间模型 [38]),是研究多个协变量影响的有价值工具。协变量或预测变量预期与玩家退出游戏的原因相关。

根据 Cox 比例风险模型,估计的 kkk 个玩家和 ppp 个协变量向量 xkx_kxk 的风险形式为:

hk(t)=h0(t)exp⁡(β1xk,1+…+βpxk,p) h_k(t) = h_0(t) \exp(\beta_1 x_{k,1} + \ldots + \beta_p x_{k,p}) hk(t)=h0(t)exp(β1xk,1++βpxk,p)

其中风险函数 hk(t)h_k(t)hk(t) 取决于基线风险 h0(t)h_0(t)h0(t) 和特征 βpxk,p\beta_p x_{k,p}βpxk,p。Cox 回归不假设特定的统计分布。它基于数据拟合,并通过最大化部分似然来解决截尾问题。

Cox 模型及其扩展 [56] 允许回归处理截尾数据,并且它们允许对特征影响进行直观解释。然而,这些技术假设输出和变量之间存在固定的联系(假设它们是加性且随时间恒定的)。这要求研究人员明确指定关系,并涉及在模型选择和评估方面的重要工作。尽管它们是半参数性质的,这些模型在处理大数据问题时仍然存在困难,并且提出了 Cox 回归的替代正则化版本 [39] 来改进这一点。然而,它们仍然基于难以满足的限制性假设。

在参数方法中,如加速失效时间模型 [38],分布类型是预先确定的(例如,Weibull、对数正态、指数分布)。然而,这些方法是次优的,因为数据很少遵循这些特定的分布形状。

在本文中,我们通过应用机器学习算法来处理截尾数据问题,解决了上述缺点。

B. 生存树和集成方法

1) 决策树

最早在 [41] 中提出,决策树在20世纪80年代变得流行,当时最相关的分类与回归树(Classification and Regression Trees, CART)算法由 [7]、[44]、[50] 引入。分类和回归树是非参数技术,其基本思想是递归地划分特征空间,以便将具有同质特征的主体分组,并根据关注的结果将差异较大的主体分开。为了进行节点分类并最大化节点内的同质性,必须最小化一种称为不纯度的度量。不纯度的常见例子有交叉熵或平方误差和。例如,考虑一个二元分裂,并给定一个连续变量 XXX,如果满足 X≤dX \leq dXd,则可以进行分裂,其中 ddd 是一个常数。

2) 生存树

生存树被构建为一组通过对样本空间 χ\chiχ 进行递归划分而生长的二叉树,其中树节点 qiq_iqiχ\chiχ 的子空间。树的分裂从根节点开始,根节点集中所有数据。基于生存统计标准,例如累积风险函数或 Kaplan-Meier 估计,根节点被分为两个子节点。分裂这两个分支的原则是最大化两组个体之间的生存差异,这些个体被压缩在两个子节点中,基于生存经验最大化节点间的同质性。

最早使用基于树的方法处理删失数据的想法最初由 [8] 和 [37] 提出。我们所知的第一个生存树在 [17] 中提出,其中在每个节点计算 Kaplan-Meier 估计生存函数,作为使用 Wasserstein 度量的差异度量。关于不同类型生存树的综合评论,请参见 [4]。

通过探索所有组合,考虑所有预测变量 xix_ixi 和所有可能的分裂,以最大化生存差异来实现最佳分裂。这样,具有相似生存特征的主体被分组在一起。随着树的生长,分支之间的差异增加,个体被聚集在具有更同质生存行为的节点中。

尽管作为一种强大的分类工具,能够对删失数据进行建模,但使用单棵树可能会导致预测的不稳定性。这意味着如果数据发生微小变化,预测结果可能会在多次计算中有所不同(差异主要与风险因素的预测有关)[33]。如果我们执行一个集成模型而不是使用单棵树,这个缺点就会被修正。

3) 生存集成模型

使用集成模型而不是单一模型是一种准确的预测工具,最早由 [5] 和 [6] 提出,广为人知的是随机森林。基于树的集成模型在实际应用中取得了出色的预测结果 [62]。

生存森林是基于集成学习的方法,其底层算法是一种生存树。生存集成模型是通过生长一组生存树,而不是单棵树。两种主要的生存集成技术是 [27] 提出的随机生存森林和 [24] 基于其之前在 [21] 和 [25] 中提出的工作开发的条件推断生存集成模型。

条件推断生存集成模型是用于第III节中预测的选择方法。条件推断生存集成技术使用基于训练时使用的测量值的加权Kaplan-Meier函数。集成生存函数 [40] 可以总结为:

Sconditional(t∣xi)=∏(1−∑n=1NTn(dt,xi)∑n=1NQn(t,xi)) S_{\text{conditional}}(t | x_i) = \prod \left( 1 - \frac{\sum_{n=1}^N T_n(dt, x_i)}{\sum_{n=1}^N Q_n(t, x_i)} \right) Sconditional(txi)=(1n=1NQn(t,xi)n=1NTn(dt,xi))

其中 nnn 表示集成中的树的数量,n=1,⋯ ,Nn = 1, \cdots, Nn=1,,Nxix_ixi 是协变量。因此,在 xix_ixi 所在的节点,TnT_nTn 计算到时间 ttt 为止的未删失事件,QnQ_nQn 计算在时间 ttt 处的风险个体数量。此外,条件推断生存集成模型对节点中风险个体较多的地方引入了额外的权重。它使用线性秩统计作为分裂标准来生长树。

相比之下,随机生存森林 [27] 基于Nelson-Aalen估计(而不是使用Kaplan-Meier估计)。在每个节点中使用对数秩统计测试的最大值作为分裂标准,这导致偏向于具有许多分裂的协变量的结果。

条件推断生存集成模型是一种处理流失预测中删失特性的方法。它是一种相比传统统计Cox回归模型更灵活的方法,并解决了生存树中存在的不稳定性。在选择的流失研究方法中,过拟合不会出现在其估计中,并且提供了关于变量重要性的可靠信息。这修正了随机生存森林在许多分裂或缺失数据的预测变量上存在的偏差问题 [59]。

III. 数据集

我们收集了一个主要移动社交游戏从2014年10月到2016年2月的数据。调查了多个流失预测因素或风险因素。

我们主要调查了与游戏机制无关且可以在任何游戏中测量的游戏独立特征。这使我们能够构建一个游戏独立的流失预测模型,该模型可以应用于其他游戏。

此外,我们希望在运行于实际业务环境中的数据科学产品中实现我们的模型。因此,特征选择考虑了内存和处理能力方面的限制,这些限制可能在纯研究环境中不会被考虑。

  • 玩家注意力:玩家访问游戏的时间组件。

    • 每天在游戏中花费的时间,包括前几周的平均值和最近几周的移动平均值。
    • 生命周期:从注册到流失的天数,如果玩家流失的话。
  • 玩家忠诚度:玩家访问游戏的频率。

    • 至少有一次游戏会话的天数。
    • 忠诚度指数:玩游戏的天数与生命周期的比率。
    • 从注册到第一次购买的天数。
    • 自上次购买以来的天数。
  • 游戏强度:游戏会话的质量,即玩家如何与游戏互动。

    • 行动次数。
    • 会话次数。
    • 应用内购买的次数和金额。
    • 行动活动距离:生命周期内平均行动次数与最近几天平均行动次数之间的欧几里得距离。
  • 玩家等级:该变量的值及其演变取决于游戏。然而,等级的概念存在于大多数游戏中,并且可以被测量,因此可以被认为是一个游戏独立的预测因素,可以在我们的模型中使用,并应用于大多数其他移动社交游戏。

我们调查了一些游戏相关特征,但最终没有保留在我们的模型中,例如:

  • 参与公会。公会是一种社交特征,有时称为联盟或氏族,特定于某些社交游戏,允许与其他玩家合作玩游戏。这个预测因素对我们的研究问题不适用,因为我们研究的重点对象——鲸鱼玩家,在参与游戏的社交特征方面表现出一致的行为。

  • 按类别(商店、战斗、任务等)测量的行动次数。这是特定于所研究的游戏的。然而,它并没有提供比总行动次数的高级和游戏独立测量更相关的信息。

IV. 建模

A. 流失定义

如第一节所述,在F2P游戏中定义流失并不简单。在本研究中,我们认为如果玩家连续10天没有连接游戏,则该玩家已经流失。我们的测量结果证实,那些经历了10天不活跃期的鲸鱼玩家大多变得不活跃:他们要么永久退出游戏,要么他们的活动变得微不足道。事实上,鲸鱼玩家在经历10天不活跃期后回归游戏的购买活动仅占该类别玩家收入的1.4%。

传统的流失分析侧重于预测用户是否会退出游戏,即响应是一个二元变量:是或否。然而,通过这种方法,我们无法知道玩家何时会停止连接游戏。传统的流失预测从静态的角度解决,是一个二元分类问题。

我们的工作重点是流失何时发生。我们从生存分析的角度建模流失行为,并将流失者的预测视为一个截尾数据问题,我们模型的结果是连续时间——退出游戏的时间。我们使用了条件推断框架中的生存集成算法[24],如第二节B3部分所述。本研究使用了一个包含2500名鲸鱼玩家的学习样本。

B. Kaplan-Meier估计

我们通过绘制按鲸鱼玩家、普通付费用户和非付费用户分层的Kaplan-Meier (K-M)生存曲线来可视化流失问题。为了进行K-M生存分析,我们取样了1,500,000名玩家。

图2提供了基于玩家付费行为的不同类型玩家的K-M生存曲线的图形表示,区分了鲸鱼玩家(高价值玩家)、付费用户和非付费用户。图2显示了每组的不同生存模式。非付费用户的估计生存率远低于付费用户(包括鲸鱼玩家和非鲸鱼付费用户)。大约80%的非付费玩家在首次连接游戏的当天就流失了。这与鲸鱼玩家在100天后的20%流失率形成对比。

C. 将流失模型视为截尾数据问题

在本工作中,作者提出了条件推断生存集成[24]来建模游戏流失。使用1000个条件推断树的生存集成作为基学习器来预测鲸鱼玩家退出游戏的时间。图3展示了条件推断树的工作原理。它展示了一个具有两个终端节点的简单划分。在每个终端节点中,一条Kaplan-Meier生存曲线代表了节点分类中包含的玩家群体。在这个例子中,我们可以观察到每个节点所特征化的生存曲线之间的差异。在图3中,根节点变量是玩家在游戏中达到的最后等级。两个子节点划分从此处生长:一个也基于等级,另一个基于玩家上次应用内购买以来的天数(daysLastPurchase)。

总体生存时间是该模型的结果。图4总结了在生存集成模型中包含的最重要的预测因素,这些预测因素用于右截尾观察。变量重要性使用综合Brier评分(IBS)[18]计算,并基于此进行特征选择。其他生存集成方法,如[27],在变量选择方面不如本研究中使用的技术[24]稳健,因此在计算变量重要性方面也不如本研究中使用的方法。变量重要性通常偏向于具有许多分裂的预测因素。基于无偏树构建的条件推断生存集成避免了这个问题[23]。

该模型的最终预测包含了每个玩家的生存函数,表示自注册游戏以来流失的概率。图5展示了四个新玩家的四个Kaplan-Meier生存函数的样本。在图5中,我们可以观察到每个玩家的流失概率(y轴)随时间(x轴)的变化。在这个例子中,我们区分了不同的玩家档案和生存行为:

  • 从左边开始的前两个图显示了两个即将流失的玩家的生存概率曲线。
  • 从左边开始的第三个图显示了一个预计会流失但不会在近期流失的玩家的生存概率曲线。
  • 从左边开始的最后一个图显示了一个非常忠诚的玩家的生存概率曲线。

对于每个玩家,将根据我们的模型计算出不同的生存函数。

图5突出了我们模型分类和预测每个玩家忠诚度的能力,考虑了时间维度。此外,生存时间中位数,即游戏中生存率为50%的时间,作为时间阈值用于将玩家分类为流失风险。

D. 模型验证

由于截尾数据的性质,标准的可视化和评估预测性能的方法并不适用[40]。图7展示了所提出的条件推断生存集成方法和选择的Cox回归(使用相同的预测因素)的拟合情况。条件推断生存集成模型在散点图和均差图评估中展示了测量和预测生存时间之间的合理一致性。我们可以在下方的图中观察到,Cox回归在预测能力方面比集成模型表现得更差。如图7所示,研究开始时数据集中度较高。这是因为我们处理的是截尾数据,并且不遵循正态分布。因此,随着研究时间的增长,我们拥有的信息越来越少,因为许多鲸鱼玩家尚未经历事件,因为他们仍在连接游戏。这一现象反映在图2中显示的鲸鱼玩家的累积生存分布中。因此,随着截尾率的增长,预测能力会减弱。

图6描绘了生存集成模型和Cox回归模型的累积预测误差曲线。综合Brier评分是一种为生存分析开发的评估指标[18],[40]。我们使用它来总结两个生存时间分析输出的误差估计。误差评估基于有放回的自助法交叉验证进行。这种技术通过将测量分割成多个自助训练和测试样本来估计预测误差。然后,使用多组自助样本对模型进行训练和测试。图6展示了1000个样本的自助法交叉验证预测误差曲线。

图6基本上支持了图7所展示的内容,因为基于集成的方法在准确性上优于Cox模型,参见表I。预测误差函数在Cox回归(误差值为0.21)和集成模型(误差值为0.20)的生存时间中位数分别为304天和306天时达到最大值。

为了比较两个模型的准确性,还进行了额外的验证测试。使用配对t检验(Welch两样本t检验)[42]来估计一个模型的预测能力是否在统计上显著优于另一个模型。t检验使用了95%的置信区间。根据t检验,生存集成模型在统计上显著,即p值≤0.05。我们得到以下值:t = 3.56 和 p = 0.00039。

V. 与其他模型方法的比较

我们在本节中包含了一个流失者的二元分类模型。尽管我们认为将流失建模为截尾问题是合适的方法,但二元预测视角也为我们提供了有趣的信息。二元响应模型为非常短期的预测提供了有用的见解。它易于解释和实施。

尽管我们使用了相同的条件推断集成算法,但结果有所不同。分类模型的响应是一个表示玩家是否流失的二元变量,即是或否。我们使用多个特征集训练了二元模型,以获得图4中显示的最终属性列表。我们强调了在评估变量影响时生存模型和二元分类模型之间获得的对比结果。它反映了不同建模方式的本质,因此也反映了预测结果的不同。

为了支持使用二元方法进行流失分析所获得的结果,进行了与其他二元分类方法的比较研究。在本研究中,我们选择了几种算法作为二元分类器:SVM、朴素贝叶斯分类器和决策树。关于这里使用的技术的详细和完整解释可以在[20]中找到。

集成模型的拟合情况总结在表II中,我们将我们的结果与其他分类方法进行了比较。它表明观察到的和预测的流失者之间具有良好的一致性,AUC(ROC曲线下面积)为0.96。尽管其他技术也表现得非常准确,但它们存在一些缺点。SVM在AUC方面也有很高的得分,但它们被认为是黑箱,因为提取输入变量和输出之间的关系需要大量的努力[32]。

上述技术是解决回归或分类问题的强大工具。然而,在其原始形式中,它们无法处理截尾数据的信息同化。因此,为了将这些方法应用于生存分析响应,必须事先对算法进行适当的修改或对数据进行适当的转换。

VI. 总结与结论

本研究的重点是找到一种合适的技术来建模玩家流失,这是社区内的一个开放问题。此外,这项工作展示了理解社交游戏中最有价值玩家的挑战性目标的步骤。

作者提出应用一种最先进的算法:条件推断生存集成[24],以预测社交游戏中玩家的流失时间和生存概率。

我们寻找一种能够在运营业务环境中进行预测的方法,并且能够轻松适应不同类型的游戏、玩家,因此也能够适应数据的不同分布。这是主要动机:我们需要一种灵活的技术,不需要对数据进行预处理,并且能够有效地处理流失预测问题的时间维度。为此目的,我们评估了条件推断生存集成,并与传统的生存方法如Cox回归进行了比较。

条件推断生存集成提供了比传统方法更准确和更稳定的预测结果。所提出的方法是无偏的,不会过拟合[24],并为我们提供了关于影响玩家放弃游戏的风险因素的稳健信息。

我们获得的预测为业务用户和游戏开发者提供了有用且易于解释的玩家信息。结果直接影响游戏业务,改进了对鲸鱼玩家行为的了解,发现了随时间变化的新游戏模式,并根据流失的风险因素对社交游戏玩家进行分类。

在这一方向上的进一步工作是提高对在游戏中停留时间较长的玩家的流失时间预测的准确性。为此,我们将继续研究重要特征,以发现新的游戏模式。一个有前途的方向是研究基于比本研究中使用的社交活动更复杂的度量的预测因素。

VII. 软件

所有分析均使用Linux上的R版本3.1.2进行,使用了以下来自CRAN的软件包:party版本1.0[22], [23],survival版本2.38[57],ROCR 1.0[52], [53],Core Learn版本1.47[45], [46]和cvTools版本0.3.2[1]。

致谢

我们感谢同事Sovannrith Lay在数据收集方面的帮助以及他在研究期间的支持。我们还感谢Thanh Tra Phan对本文的仔细审阅。

REFERENCES

[1] A. Alfons. cvTools: Cross-validation tools for regression models. R
package version 0.3, 2(5), 2012.

[2] A. Annie. App annie and IDC mobile app advertising and monetization
trends, 2013.

[3] J. Banasik, J. N. Crook, and L. C. Thomas. Not if but when will
borrowers default. Journal of the Operational Research Society, pages
1185–1190, 1999.

[4] I. Bou-Hamad, D. Larocque, H. Ben-Ameur, et al. A review of survival
trees. Statistics Surveys, 5:44–71, 2011.

[5] L. Breiman. Bagging predictors. Machine learning, 24(2):123–140,
1996.

[6] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.

[7] L. Breiman, J. Friedman, C. J. Stone, and R. A. Olshen. Classification
and regression trees. CRC press, 1984.

[8] A. Ciampi, R. Bush, M. Gospodarowicz, and J. Till. An approach to
classifying prognostic factors related to survival experience for nonhodgkin’s lymphoma patients: Based on a series of 982 patients: 1967–1975. Cancer, 47(3):621–627, 1981.

[9] L. S. A. D. Clark TG, Bradburn MJ. Survival analysis part i: Basic
concepts and first analyses. British Journal of Cancer, 89(2):232–238, 2003.

[10] M. Clemente-C´ıscar, S. San Mat´ıas, and V. Giner-Bosch. A methodology
based on profitability criteria for defining the partial defection of
customers in non-contractual settings. European Journal of Operational
Research, 239(1):276–285, 2014.

[11] D. R. Cox. Regression Models and Life-Tables. Journal of the Royal
Statistical Society. Series B (Methodological), 34(2):187–220, 1972.

[12] D. R. Cox and D. Oakes. Analysis of survival data, volume 21. CRC
Press, 1984.

[13] C. R. David. Regression models and life tables (with discussion).
Journal of the Royal Statistical Society, 34:187–220, 1972.

[14] T. Fields. Mobile and Social Game Design: Monetization Methods and
Mechanics. CRC Press, 2 edition, 2014.

[15] T. R. Fleming and D. Lin. Survival analysis in clinical trials: past
developments and future directions. Biometrics, 56(4):971–983, 2000.

[16] L. Fu and H. Wang. Estimating insurance attrition using survival
analysis. Table of, page 55.

[17] L. Gordon and R. Olshen. Tree-structured survival analysis. Cancer
treatment reports, 69(10):1065–1069, 1985.

[18] E. Graf, C. Schmoor, W. Sauerbrei, and M. Schumacher. Assessment
and comparison of prognostic classification schemes for survival data.
Statistics in medicine, 18(17-18):2529–2545, 1999.

[19] F. Hadiji, R. Sifa, A. Drachen, C. Thurau, K. Kersting, and C. Bauckhage. Predicting player churn in the wild. In Computational Intelligence
and Games (CIG), 2014 IEEE Conference on, pages 1–8. IEEE, 2014.

[20] T. Hastie, R. Tibshirani, and J. Friedman. The elements of statistical
learning: data mining, inference and prediction. Springer, 2 edition,
2009.

[21] T. Hothorn, P. Buhlmann, S. Dudoit, A. Molinaro, and M. J. Van ¨
Der Laan. Survival ensembles. Biostatistics, 7(3):355–373, 2006.

[22] T. Hothorn, K. Hornik, C. Strobl, and A. Zeileis. Party: A laboratory
for recursive partytioning, 2010.

[23] T. Hothorn, K. Hornik, C. Strobl, A. Zeileis, and M. T. Hothorn. Package
’party’. Package Reference Manual for Party Version 0.9-998, 16:37,
2015.

[24] T. Hothorn, K. Hornik, and A. Zeileis. Unbiased recursive partitioning:
A conditional inference framework. Journal of Computational and
Graphical Statistics, 15(3):651–674, 2006.

[25] T. Hothorn, B. Lausen, A. Benner, and M. Radespiel-Troger. Bagging ¨
survival trees. Statistics in medicine, 23(1):77–91, 2004.

[26] P. Hougaard. Fundamentals of survival data. Biometrics, 55(1):13–22,
1999.

[27] H. Ishwaran, U. B. Kogalur, E. H. Blackstone, and M. S. Lauer. Random
survival forests. The annals of applied statistics, pages 841–860, 2008.

[28] E. Johnson. A long tail of whales: Half of mobile games money comes
from 0.15 percent of players, 2014. http://recode.net/2014/02/26/a-longtail-of-whales-half-of-mobile-games-money-comes-from-0-15-percentof-players.

[29] D. G. Jun Ding and X. Chen. Alone in the game: Dynamic spread
of churn behavior in a large social network a longitudinal study in
MMORPG. falta, 24(2):123–140, 1996.

[30] E. L. Kaplan and P. Meier. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association,
53(282):457–481, 1958.

[31] J. Kawale, A. Pal, and J. Srivastava. Churn prediction in MMORPGs:
A social influence based approach. In Computational Science and
Engineering, 2009. CSE’09. International Conference on, volume 4,
pages 423–428. IEEE, 2009.

[32] M. Kretowska. The influence of censoring for the performance of
survival tree ensemble. Springer Berlin Heidelberg, pages 524–531,
2010.

[33] M. Kretowska. Artificial Intelligence and Soft Computing: 13th International Conference, ICAISC 2014, Zakopane, Poland, June 1-5, 2014,
Proceedings, Part I, chapter Comparison of Tree-Based Ensembles in
Application to Censored Data, pages 551–560. Springer International
Publishing, Cham, 2014.

[34] S. Lagakos. General right censoring and its impact on the analysis of
survival data. Biometrics, pages 139–156, 1979.

[35] J. Li and S. Ma. Survival analysis in medicine and genetics. CRC Press, 2013.

[36] J. Lu. Predicting customer churn in the telecommunications industry - An application of survival analysis modeling using SAS. SAS User
Group International (SUGI27) Online Proceedings, pages 114–27, 2002.

[37] E. Marubini, A. Morabito, and M. Valsecchi. Prognostic factors and risk
groups: some results given by using an algorithm suitable for censored
survival data. Statistics in medicine, 2(2):295–303, 1983.

[38] E. Marubini and M. G. Valsecchi. Analysing survival data from clinical
trials and observational studies. Wiley-Interscience, 2004.

[39] S. Mittal, D. Madigan, R. S. Burd, and M. A. Suchard. Highdimensional, massive sample-size cox proportional hazards regression
for survival analysis. Biostatistics, page kxt043, 2013.

[40] U. B. Mogensen, H. Ishwaran, and T. A. Gerds. Evaluating random
forests for survival analysis using prediction error curves. Journal of
statistical software, 50(11):1, 2012.

[41] J. N. Morgan and J. A. Sonquist. Problems in the analysis of survey
data, and a proposal. Journal of the American statistical association,
58(302):415–434, 1963.

[42] N. I. of Standards, T. (US), C. Croarkin, P. Tobias, and C. Zey.
Engineering statistics handbook. The Institute, 2001.

[43] R. L. Prentice, J. D. Kalbfleisch, and A. V. Peterson. The analysis of
failure times in the presence of competing risks. Biometrics, 34:541–
544, 1978.

[44] J. R. Quinlan. Induction of decision trees. Machine learning, 1(1):81–
106, 1986.

[45] M. Robnik-Sikonja and P. Savicky. CORElearn - classification, regression, feature evaluation and ordinal evaluation. The R Project for
Statistical Computing, 2012.

[46] M. Robnik-Sikonja, P. Savicky, and M. M. Robnik-Sikonja. Package
’CORElearn’, 2013.

[47] P. Rothenbuehler, J. Runge, F. Garcin, and B. Faltings. Hidden markov
models for churn prediction. In SAI Intelligent Systems Conference
(IntelliSys), 2015, pages 723–730. IEEE, 2015.

[48] J. Runge, P. Gao, F. Garcin, and B. Faltings. Churn prediction for highvalue players in casual social games. In Computational Intelligence and
Games (CIG), 2014 IEEE Conference on, pages 1–8. IEEE, 2014.

[49] A. Saas, A. Guitart, and A. Perianez. Discovering playing patterns: Time
series clustering of free-to-play game data. Computational Intelligence
and Games (CIG), 2016 IEEE Conference on, 2016.

[50] S. L. Salzberg. by j. ross quinlan. morgan kaufmann publishers, inc., 1993. Machine Learning, 1:6, 1994.

[51] V. Saradhi and G. K. Palshikar. Employee churn prediction. Expert
Systems with Applications, 38(3):1999–2006, 2011.

[52] T. Sing, O. Sander, N. Beerenwinkel, and T. Lengauer. Package
’ROCR’: visualizing the performance of scoring classifiers, 2007.
http://rocr.bioinf.mpi-sb.mpg.de.

[53] T. Sing, O. Sander, N. Beerenwinkel, and T. Lengauer. ROCR:
visualizing classifier performance in R. Bioinformatics, 21(20):3940–
3941, 2005.

[54] M. Stepanova and L. C. Thomas. Survival analysis methods for personal
loan data. Operations Research, 50(2):277–289, 2002.

[55] A. Tamaddoni Jahromi, M. M. Sepehri, B. Teimourpour, and S. Choobdar. Modeling customer churn in a non-contractual setting: the case of
telecommunications service providers. Journal of Strategic Marketing,
18(7):587–598, 2010.

[56] Terry M. Therneau and Patricia M. Grambsch. Modeling Survival Data:
Extending the Cox Model. Springer, New York, 2000.

[57] T. M. Therneau and T. Lumley. Package ’survival’, 2015.

[58] W. Verbeke, D. Martens, C. Mues, and B. Baesens. Building comprehensible customer churn prediction models with advanced rule induction
techniques. Expert Systems with Applications, 38(3):2354–2364, 2011.

[59] M. N. Wright, T. Dankowski, and A. Ziegler. Random forests for
survival analysis using maximally selected rank statistics. arXiv preprint
arXiv:1605.03391, 2016.

[60] S. Yoon, J. Koehler, and A. Ghobarah. Prediction of advertiser churn
for google adwords. In JSM proceedings, 2010.

[61] X. Yu, S. Guo, J. Guo, and X. Huang. An extended support vector
machine forecasting framework for customer churn in e-commerce.
Expert Systems with Applications, 38(3):1425–1430, 2011.

[62] C. Zhang and Y. Ma. Ensemble machine learning. Springer, 2012.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值