导读
目前业界对于用户生命周期价值预测最新并且最成功的模型论文是2023年8月Junwoo Yun等人发表的《Multi Datasource LTV User Representation (MDLUR)》。根据论文的表述,该模型正是采用了最新的Transformer模型架构,并达到了行业内SOTA的水平。SOTA,全称State-Of-The-Art,用于描述机器学习中取得某个任务上当前最优效果的模型。特此将MDLUR论文全文翻译,总共11650字,以供大家参考和学习。
摘要
在本文中,我们提出了一种名为多数据源生命周期价值(LTV)用户表示(MDLUR)的新型用户表示方法。我们的模型旨在为下游任务建立一个通用的用户embedding,特别是安装后特定天数的生命周期价值(LTV)预测。MDLUR结合了各种数据源,包括用户信息、画像以及社交赌场游戏“Club Vegas Slots”(由Bagelcode开发)在安装后的头N天内的行为数据。该模型克服了传统方法在有效利用不同数据源或准确捕获稀疏数据集中的交互方面的局限性。MDLUR采用了针对每个数据源量身定制的独特模型架构。结合强大的降维技术,该模型成功地有效整合了来自不同数据源的洞察。在现实工业数据上的全面实验表明,与包括两阶段XGBoost、WhalesDector、MSDMT和BST在内的最新技术(SOTA)基线相比,所提出方法的优越性。它不仅优于这些模型,而且还已经通过MLOps在生产环境中高效部署和测试,证明了其可维护性。该表示可能潜在地应用于广泛的下游任务,包括转化、流失和留存预测,以及用户细分和项目推荐。
1. 引言
在快速发展的游戏行业中,公司不断努力增强其收入来源并改善玩家获取。因此,理解玩家行为已成为一种战略需要。对LTV(生命周期价值)的日益关注强调了这一点,LTV量化了玩家直到永久离开游戏所产生的收入。通过利用数据和LTV获得的洞察,公司不仅可以增加收入,还可以通过个性化购买提供改进的游戏体验[1, 30]。此外,他们可以通过识别人口统计和行为上的相似之处,实施营销策略,识别并吸引更有价值玩家。
随着玩家生成数据的增长,游戏公司需要复杂的预测模型来更好地理解和预测玩家购买。这导致了更有针对性的和有效的应用内购买(IAP)策略。特别是在LTV方面,传统方法如RFM和BYTD [7, 8, 10–12, 16, 17, 25, 27]、机器学习[6, 19, 22]以及不平衡固定[19, 20, 24]已被采用。然而,这些方法主要关注购买和直接相关的行为,需要额外的特征选择,并且可能无法全面捕捉数据内的关系。深度学习的出现通过使用行为序列数据[3, 4, 32]和用户表示[5, 18, 26, 29, 31],促进了对用户行为的更深入理解。
尽管现有方法在提高LTV预测方面展示了潜力,但它们主要关注电子商务数据的推荐系统及相关下游任务。与游戏行业相关的研究[1, 2, 5, 19]并未充分利用游戏数据来源的多样性,并且缺乏对这些数据的全面理解。最近的方法开始考虑更广泛范围的数据特征和来源,包括M3Rec [4]和SCGRec [30]。然而,这些方法仍然未能充分利用不同的来源和方法来理解数据内的关系。使用有限特征的原因可能是由于采用来自多个来源的大型特征集的权衡,这通常会导致由于数据稀疏性导致的维数灾难。
为了应对这些挑战,我们提出了一种名为多数据源生命周期价值(LTV)用户表示(MDLUR)的新方法。这种新颖的方法建立了一个用于下游任务的通用用户embedding,特别是安装后特定天数的LTV预测。MDLUR的新颖之处在于其能够利用多种数据模态和频谱,采用为每个数据源量身定制的独特且独特的模型架构——用户信息、画像和行为序列数据。每个源的输出表示通过跳跃连接自编码器(SAE)进行聚合和压缩,从而形成一个丰富且强大的用户表示,它涵盖了各个方面。这种方法使我们的模型在下游任务中表现出色,特别是在LTV预测方面,提供了对玩家行为更深入的理解。
此外,通过其通用用户embedding,MDLUR比传统模型提供了显著的优势。它为各种下游任务提供了一个强大的估计器,并揭示了传统模型经常忽视的代表性不足的玩家的潜力。通过全面采用用户、画像和行为数据的方法,MDLUR提高了公司收入并增强了整体玩家体验。
尽管使用具有大型稀疏embedding的多数据源可能导致维数灾难,我们采用了有效的降维技术,包括Conv2D、自编码器(AE)、SAE和UNET架构,并辅以适当的缩放和初始化。结果,我们的模型生成了适用于各种下游任务的紧凑embedding,包括转化、流失和留存预测,以及用户细分和项目推荐。与基线模型的比较和离线实验已经证明了MDLUR的优越性。此外,它已经通过MLOps在生产环境中高效部署和在线测试,这证明了其可维护性。
2. 相关工作
2.1 深度学习
深度学习技术的最新进展增强了LTV预测能力,与统计RFM [7, 8, 23]和提升模型 [6]等传统方法相比有所提高。Chen等人[2]首次引入深度神经网络(DNN)来解决这个问题。在准确性方面,它优于提升模型,并能够无需特征工程就能训练更大的序列数据,从而显著减少了计算时间和资源。
为了应对类别不平衡和付费者分布等缺点,Wang等人[24]对Chen等人[2]引入的模型进行了修改。这项研究假设付费者分布遵循零膨胀对数正态(ZILN)分布,如公式1所示,并采用DNN拟合分布的均值和标准差进行LTV预测。他们引入了一个损失函数来处理长尾倾斜分布。由于我们的数据中存在类似的挑战,我们已经采用并测试了这一策略与我们的MDLUR框架。最近的工作[14]引入了一个工业级模型,能够处理LTV预测的多样化分布,这强调了数据分布的重要性。
类别不平衡问题通过使用合成少数过采样技术(SMOTE)与DNN结合来进一步解决,以预测高级和高价值用户[18, 19]。这种方法可以适应与购买无直接关系的多种数据,并明确处理免费游戏数据集中普遍存在的高不平衡和偏斜。为了捕获用户购买历史和游戏行为中的时序序列及其长距离依赖,del Río等人[5]采用长短期记忆(LSTM)进行LTV预测。
TSUR [28] 结合了社交网络和时间序列收入历史,采用了图注意力网络(Graph Attention Network)和小波变换(Wavelet Transform)与多头注意力(Multi-headed attention)。这种架构成功地在低通表示空间中学习了时间和结构化的用户表示,有效地为LTV预测过滤了数据噪声。
2.2 序列画像和行为模型
与传统方法严格关注用户和购买相关数据不同,更近期的研究开始考虑更广泛的间接或非购买相关事件,例如用户画像和行为数据[34]。这项研究采用用户行为特征embedding建立用户行为与目标预测之间的关系,并辅以局部激活,在embedding中加入全连接层。BST [3] 在按时间顺序排列的用户行为序列上实现了一个变换器架构,使用LeakyReLU和dropout,捕获稀疏行为特征中的交互,并理解用户行为的序列特性。我们提出的MDLUR通过采用Time2Vec [13]进行更好的时间embedding和UNET架构进行有效的降维,进一步增强了这种方法。通过加权和聚合来自变换器层和UNET的空间表示,取得了更好的性能,充分利用了两种方法的优势。
最近模型PSAC [32] 通过利用多个数据源之间的相互联系,展示了提高预测精度的能力。该论文采用N_Gramembedding在序列行为数据上,以及DNN和LSTM层进行购买预测。M3Rec [4] 利用基于不同动作类型的用户级别通过图神经网络使用序列游戏数据,以更好地理解用户。我们的模型通过多样化数据源,并为每个源定制特定架构,从而最大化信息提取和理解深度,在这方面进行了扩展。
2.3 用户表示
不同来源的数据提供了隐式和显式信息。构建用户表示[3, 34]不仅有助于预测LTV,还可以微调或转移到其他下游任务。因此,高效的用户表示对于深入理解用户和下游预测任务至关重要。
近期研究[18, 31]提出了一种通过在电子商务领域内进行大规模预训练的通用表示学习方法。这种方法可以用于多种下游任务,包括LTV预测。Yang等人[29]的研究通过用户行为的空间编码和自监督多锚编码器网络(SMEN),进一步增强了通用用户表示,该网络通过对比学习发展出多个低维用户表示。Wu等人[26]将序列用户表示视作类似NLP任务,采用BERT架构建立用户行为和序列匹配之间的关系,从而提高性能。在游戏领域,只有少数研究[14, 28]采用了表示学习,但对数据的使用有限,模型架构也不够高效。
我们的模型通过利用多个角度的数据流——包括用户信息、游戏内画像和行为数据——与游戏行业以往的研究有所不同。为每个数据流采用不同的模型架构增强了泛化性能,因为每个架构都能捕捉数据的独特方面。加权求和聚合允许模型为每个数据源的信息分配重要性。因此,我们的MDLUR为用户提供了丰富而强大的通用表示,用于LTV预测任务,这是向提高预测结果和进一步下游任务迈进的新步伐。
3. 数据和数据分析
MDLUR的有效性来自于它对多个数据源的使用。近期研究[3, 4, 18, 29]已经展示了多样化数据源的价值,这些数据源改进了对预测任务中特征交互的理解。我们专注于使用来自不同角度的数据流的更大频谱,以三个不同的数据源——用户信息、画像和行为数据——全面理解用户。独特的架构分别处理每个数据源,然后将其拼接起来,创建一个强大而全面表示。分离的合理性在于每种数据类型提供的独特视角,提供了单一数据源可能遗漏的用户的多方面理解。
表1强调了仅有3%的总用户基础负责生成整个生命周期价值(LTV)。鉴于这种显著的不平衡,关键部分在于模型准确区分付费和非付费用户的能力,并精确预测付费用户的购买量。此外,图1揭示了高LTV用户中显著的稀疏性,造成了一个倾斜的不对称长尾分布问题,这使得预测用户购买和金额变得复杂。从[14, 19, 20, 24]建议的有效数据采样中,我们以付费者与非付费者的1:3比例进行了欠采样,并过滤掉了安装后没有充分玩游戏的非活跃用户。这种方法已经被微调以产生最佳结果。
3.1 基本信息和统计数据
本文使用的数据收集自移动游戏“Club Vegas Slots”,由全球移动发布商Bagelcode开发,该公司在全球拥有超过5000万用户。数据包括在2022年1月1日至2022年12月31日期间加入游戏的450万匿名用户数据集。本文中使用的所有数据都是在用户同意隐私政策的前提下使用的。
我们进行了网格搜索以选择模型最合适的特征,在将每个源的特征分组到五个类别:基础、社交、弹出、点击和进入,如表2所示。值得注意的是,“弹出”类别中的特征部分与“基础”类别重叠,导致我们移除了它们,以减少稀疏性并提高模型效率。总共,我们使用了12个用户信息字段、248个画像(静态和时间序列)字段和165个行为购买数据字段。鉴于包括稀有应用事件在内的总特征数超过400,预计会出现数据稀疏。这种因用户而异的稀疏性是MDLUR新颖方法解决这一挑战的主要考虑因素。
3.2 用户信息数据
用户信息数据包括主要与用户相关的静态数据,特别关注诸如安装来源等归因细节。随着公司通过针对性的营销努力吸引高价值用户,理解这些与人口统计学相关的属性在理解用户方面发挥着主要作用。
3.3 用户画像数据
用户画像数据以静态和时间序列数据的形式代表用户状态。时间序列数据代表了用户自安装以来状态的演变,而静态数据只保留了最近的状态,鉴于其在预测未来生命周期价值(LTV)中的重要性。如之前研究[3]中概述的,静态数据上使用了三种聚合函数来追踪用户画像状态的变化:累积求和、差分和百分比差分。时间序列数据架构内的CNN(卷积神经网络)和Transformer层将进一步追踪数据的变化。静态数据和时间序列数据的结合提供了一个丰富的数据集,使模型能够理解用户状态的重要性及其对下游任务的影响。
3.4 用户行为数据
用户行为数据以时间序列格式表示游戏中的用户行为。这些数据被分割成28个窗口,每个窗口代表在特定时间段内的聚合数据。例如,给定7天的输入数据,每个窗口封装了6小时的用户活动。窗口的数量经过微调,可以根据特定需求进行调整以确保最优结果。使用Time2vec[13]embedding与聚合相结合的方式,允许模型揭示原始数据中可能不是立即明显的模式和趋势。
3.5 总结
从2022年注册的450万用户中收集了不同来源的数据:用户信息、画像和行为数据。共使用了12个用户信息字段、248个静态画像字段、70个时间序列画像字段和165个行为购买字段的数据。
统计数据突出了工作的挑战:高LTV用户的稀疏性、非付费者(0 LTV)的长尾分布以及由大量特征导致的数据稀疏性。模型架构和采样技术旨在解决数据固有的这些挑战。
这些数据类别为游戏中可能发生的各种情况提供了全面的理解。用户数据通过人口统计和用户获取信息支持下游任务的推理,行为数据捕获用户采取的行动,画像数据捕获这些行动的条件和背景。
图2:所提出模型的总体架构。MDLUR按顺序获取用户信息、画像数据和行为数据。所有数据源首先通过数据清洗器、缩放器和编码器进行预处理,然后embedding到低维向量中。针对每个数据源采用不同的方法,结合降维技术,这通过虚线在视觉上进行区分。然后,每个源的输出通过两级SAE(跳跃连接自编码器)进行拼接,以学习隐藏特征之间的交互,同时管理稀疏性。最终的输出是使用带有ReLU激活函数的DNN(深度神经网络)生成的。
4. 技术方案
4.1 引言
提出的MDLUR模型架构在处理不同数据源的方法上展现了新颖性,这是由于每个数据源提供了关于用户的不同信息和视角。鉴于特征数量庞大,模型在架构中整合了降维技术。这种技术有效地去除了噪声并捕捉了相关信息。为每个数据源选择的独特架构是基于消融研究,并在后面进行拼接,以便联合高效地学习下游任务的用户表示。
4.2 预处理
在我们的研究中,我们进行了数据清洗,包括进行合理性检查和异常值过滤,以维护数据的完整性并提高其整体质量。这些措施确保我们的模型提供的数据源是强健且未受污染的,有助于我们发现结果的可靠性。
鉴于在多个低维特征中embedding的固有稀疏性,我们认识到在特征内进行缩放值的重要性。通过确保所有特征具有统一的尺度,我们的模型能够有效地学习特征之间的交互,并且可以用于不同的下游任务。
4.3 架构
MDLUR架构的一个关键组成部分是使用权重初始化技术来减轻稀疏性问题并增强模型性能。该架构包括带有He-normal核的LeakyReLU激活函数,旨在解决由稀疏数据引起的梯度消失问题。He-normal初始化通过保持激活的方差接近一来规范化权重,这防止了由于稀疏性,在训练期间梯度变得过小。正如[9]所主张的,He-normal与LeakyReLU是最佳匹配。我们的实验证明了这一点,展示了比其他初始化方法(包括Xavier、随机或均匀初始化)更好地预防梯度消失和梯度爆炸问题。
在所提出的架构中,我们采用了不同的架构来整合每个数据源,如图2所示。为每个源量身定制的模型架构是与以往方法的关键区别。这些模型由DNN(深度神经网络)、AE(自编码器)、UNET和Transformer层组成,后面使用加权和以及SAE(跳跃连接自编码器)进行拼接。整个架构旨在最大化信息增益并包含各个方面。
4.3.1 用户信息数据模型架构
第一个模型架构使用用户信息结合一个简单的DNN(64, 32, 16),这与WhalesDetector[2]中使用的方法类似。这些数据较为简单且特征数量较少,因此使用带有Dropout(0.25)的DNN足以提取重要值。当用户信息的输出表示在后续与其他数据源聚合时,它提供了有意义且独特的上下文,这增强了整体性能。
4.3.2 用户画像数据模型架构
第二个模型使用画像数据,分为静态和时间序列数据。考虑到用户状态的动态特性,考虑时间序列(随时间变化的状态)和静态(最近的状态)数据至关重要。因此,数据被分开并独立建模,如图3所示。
静态画像数据通过一个AE(256, 64, 16, 32, 64, 256)结构进行降维处理。由于它包含248个特征,AE将通过训练模型仅重构最重要的特征,从输入数据中过滤掉噪声和无关信息。这确保了模型免受数据趋势变化的影响,并且无需额外的特征工程。
时间序列画像数据使用两个不同的模型结构。
第一个由Conv2D、具有2个层级的UNET和Dense(64)输出层组成。UNET编码器由两个Conv2D和BatchNorm层与MaxPool2D组成,而解码器由Conv2DTranspose、零填充后跟两个Conv2D和BatchNorm层组成,如图4所示。
第二个结构由一个Time2Vec层[13]组成,用于更好的时间embedding,三个带有多头注意力单元的Transformer编码器层后面跟着DNN(128, 64),以及一个Dense(64)输出层。每个结构的输出通过一个可训练的加权和层进行拼接。
第一个结构强调降维,专为处理庞大且稀疏的画像数据而设计。UNET架构利用编码器和解码器之间的跳跃连接,保留空间信息的同时从数据中消除噪声。第二个结构更注重捕获状态变化,以便通过自注意力机制更好地训练模式和序列数据的规律性。这使模型能够捕捉时间依赖性,理解状态如何影响用户购买决策过程。通过加权和,不同架构的优势得到最大化,允许模型优化这些输出向量的组合,比单一架构展现出更好的性能。
4.3.3 用户行为数据模型架构
第三个模型架构利用行为数据,并与画像时间序列数据拥有相同的架构。应用到行为数据的UNET架构,从其编码器-解码器结构中获得额外的好处。重新生成用户行为的时间顺序有助于理解决策模式,UNET隐式分析导致购买的行为模式和偏好。此外,变换器层通过多头自注意力提取对序列行为动作之间复杂交互的理解。两种架构都旨在有效识别和学习行为模式,这增强了在下游任务上的预测能力。
4.3.4 拼接架构
对于最终用户表示,来自所有三个架构的输出被合并并通过一个两级SAE(跳跃连接自编码器)处理,与传统的采用单独拼接功能的方法不同。由于SAE还使用了来自AE(自编码器)的跳跃连接,它利用了固有特征的低级和高级特征,防止过拟合,并通过过滤噪声而不丢失信息来进行降维。这提供了从不同数据源获得的洞察的无缝整合,增强了最终用户表示的稳健性和准确性。架构在图5中显示,详细列出了SAE的组件层。
输出维度取决于预测任务,与传统研究只关注在特定日期预测LTV不同。例如,在预测第14天的LTV时,使用了一个大小为14的ReLU Dense层作为输出,包含第1天到第14天的LTV。我们利用输入数据中提供的可用y_true来利用部分目标渗漏的优势。它提供了对LTV在一天中变化的时序依赖性和模式的洞察。这种方法对模型性能和稳定性产生了额外的帮助。
5. 实验评估
5.1 实验配置
5.1.1 模型评估数据集
我们对模型进行了性能评估,并提供了定性洞察。所有实验均在Amazon EC2 p3.2xlarge实例上使用TensorFlow进行。为确保全面分析,我们将实验分为基线模型比较、额外输入和目标测试以及离线测试。我们使用安装后x天的数据来预测y天的LTV,其中y总是大于x。这种方法可以评估模型在早期阶段识别更有价值用户的有效性,这是营销策略中的关键组成部分。
收集了12个月的数据后,我们创建了10折时间序列交叉验证集,以确保结果的可信度。每个折叠中的数据按时间顺序划分为训练集、验证集和测试集,以防止时间序列环境中的目标渗漏。
我们进行了网格搜索测试,以确定最具成本效益的分割方式,同时不影响准确性:选择了60天的训练数据、10天的验证数据和7天的测试数据。
此外,数据还根据购买行为进行了采样。根据研究[20, 24],应用不平衡固定技术是克服付费者和非付费者预测LTV之间不平衡的必要手段,例如SMOTE、欠采样、过采样、定制损失函数和特定指标。我们通过网格搜索实验确定,在训练和验证数据中采用1:3的付费者至非付费者的欠采样比例。为了保持其对现实世界条件下所有用户群体的代表性,测试数据保持未采样状态。
5.1.2 模型评估指标
为了全面评估模型的效率,我们采用了回归和分类评估指标。按照文献[22]的做法,我们采用了均方根误差(RMSE)和R2作为回归指标,因为它们在评估回归模型中被广泛接受。此外,我们还采用了包括加权平均精度(WAP)、召回率(WAR)和F1分数(WAF)在内的分类指标。我们将生命周期价值(LTV)转换为五个组,分组的界限为[-1, 0.5, 10, 100, 1000, 无穷大],以计算分类指标。这些分组阈值是根据用户细分的内部标准选定的。这种分组方法使我们能够将回归问题转化为分类问题,为评估提供了另一个视角。
5.1.3 模型评估超参数调整
我们进行了网格搜索测试,以确定最适合的损失函数和超参数,同时考虑到数据的分布特性和稀疏性。
在损失函数方面,我们评估了均方误差(MSE)、平均绝对误差(MAE)、均方对数误差(MSLE)、平均绝对百分比误差(MAPE)以及零膨胀对数正态(ZILN)函数,参考了Wang等人的研究[24]。如表4所示,我们确定MSLE是最有效的损失函数,因为它具有对数特性,能够处理罕见的付费者和倾斜的LTV分布,如图1所示。
对于超参数,我们选择了ADAM优化器,学习率为0.001。对于学习率,我们测试了0.01、0.05、0.001和0.0005,0.001展示了持续的验证损失下降和最佳指标。此外,我们采用了批量大小为512和50个周期,同时使用了ReduceLROnPlateau(学习率衰减)和EarlyStopping(早停)回调来泛化模型,并有效地获得全局最小值。
5.2 基线和评估指标
5.2.1 基线模型比较
我们使用安装后7天的数据来预测14天时的LTV,并与以下基线模型进行了比较。为了复现这些基线模型,我们使用了公开可用的库和来自GitHub的代码,这些代码在原始论文中有引用或由作者发布。
RFM [7, 8, 23] 使用购买的最近性、频率和货币价值,结合三种不同的RFM分布假设的参数模型:Pareto/NBD、BG/NBD、MBG/MBD。注意,RFM仅使用购买的最近性、频率、货币价值,而忽略了其他数据,如用户信息、画像和行为。
两阶段XGBoost [6] 使用两步过程进行LTV预测。它首先估计用户是付费者还是非付费者,然后预测用户的LTV。
WhalesDetector [2] 使用三层CNN(300, 150, 60节点与卷积-池化)后跟核大小(7, 3, 1)来检测用户是否是高额付费者(鲸鱼用户)。我们将其复现为一个回归模型,输出层使用ReLU来预测LTV。
ZILN [24] 在WhaleDetector模型架构上使用ZILN(零膨胀长尾)损失,估计用户购买遵循具有零膨胀的对数正态分布。
MSDMT [33] 利用异构多数据源,包括玩家画像表格数据、行为序列数据和社交网络图数据,从而全面了解每个玩家。由于我们的数据不包括社交网络信息,我们采用了不包括GNN的模型,该模型由具有LSTM层的玩家画像组成 + 行为序列与CONV-1D后跟LSTM层拼接,然后由FC层拼接。
BST [3] 在用户的行为序列数据上使用带有LeakyReLU和dropout的变换器架构,以捕获稀疏数据集中的交互。
为了减轻潜在局部优化问题或过拟合/欠拟合的影响,我们对每个模型进行了五次训练。任何与均值相差超过20%的单独结果都被视为异常值,并从最终结果中排除。在每次训练中,我们通过不同的日期范围进行了10折时间序列交叉验证,以获得一般化的结果。所有指标都统一报告到小数点后两位,以便于比较。
5.2.2 结果与分析
如表3所示,MDLUR在所有五个指标上都优于所有基线模型。具体来说,参数模型和简单的DNN [2, 6–8, 24] 无法有效地捕获稀疏和复杂的多数据源中的有意义信息。ZILN损失,被[24]认为在捕获LTV方面有效,在DNN和我们的模型架构中都表现出较差的性能。虽然MSDMT [33]中使用的CNN-LSTM有助于解决数据稀疏性并捕获潜在的模式和长期依赖性,但它在准确预测用户购买方面存在困难。同样,BST [3]使用变换器捕获用户行为序列中的顺序信号,但在由于维度的诅咒而将不同数据源拼接时面临困难。
MDLUR的优势在于其独特的结构,它将不同数据源的模型架构分开并量身定制,有效地捕获了各方面的信息。此外,模型的每个部分都有一个关键部分用于降维,这使得在庞大且稀疏的多数据源上能够高效训练。这种方法承认了理解数据多样性的重要性,避免了依赖单一复杂模型。相反,它为每个数据源使用独特而高效的模型,并无缝地整合它们,为不同的下游任务创建了一个有效、多面的手模型。它在如LTV预测等任务上的最先进性能支持了这一点。
5.3 对额外输入和目标的实验结果
为了进行深入的性能验证,我们评估了所提出的模型在不同输入和目标长度下的表现,如表5所示。在预测较长时期的LTV时,第28天LTV预测任务的结果展示了模型的优势,使用了更长的输入时间范围。虽然它显示出较高的RMSE和相对较低的𝑅2R2,但这在实验中是可以接受的,因为第28天LTV在所有实验中具有更高的均值和方差。相反,当用较短的输入时间范围预测相同的目标时,模型表现相对较弱,但在工业上可接受的范围内。例如,结果表明,输入时间范围的两倍长度可以有效地预测未来的LTV,输入数据越长,预测越好。这表明模型能够通过使用更长的输入序列来提高对长期LTV的预测能力,同时也说明了在进行预测时,较长的观察窗口可以提供更多的信息,从而提高预测的准确性。然而,这也意味着在实际应用中需要在输入序列的长度和预测精度之间做出权衡。
5.4 离线推理测试
我们进行了一项离线推理测试,以评估所提出的模型在真实世界数据上的性能,预测每日新用户的生命周期价值(LTV)。为了模拟测试的实时生产环境,我们采用了内部的MLOps系统,以每周的频率持续更新模型。
在2023-01-01至2023-01-14期间,模型达到了表6所示的指标。推理数据未采样,且高度不平衡,非付费用户与付费用户的比率约为30:1。我们的模型与表3中的训练结果相比,仅存在大约10%的差异。WAP(加权平均精度)较高和WAR(召回率)较低的原因可能是由于误报,模型错误地将非付费用户判断为付费用户。这也可能会导致与训练结果相比,R2指标下降。尽管如此,整体指标保持其有效性,并证明模型有效地估计了LTV。这项测试的结果表明,模型在实际应用中的表现与训练阶段的表现相当,并且能够处理现实世界数据中的不平衡问题。这证明了模型不仅在受控的训练环境中有效,而且在面对真实世界的挑战时也能保持其性能。此外,通过MLOps系统的应用,模型能够持续更新,以适应可能随时间变化的数据分布和用户行为模式,从而确保模型的长期有效性和准确性。
6. 结论
在本文中,我们提出了一种名为多数据源生命周期价值(LTV)用户表示(MDLUR)的通用用户embedding,用于下游任务,特别是LTV预测。我们解决方案的核心在于一种架构,它承认不同数据源的独特属性。通过为每个源分配独特的架构,我们尽可能多地提取信息。通过加权和层和SAE的聚合进一步压缩每个模型的输出。MDLUR旨在管理庞大的特征和稀疏数据集,利用多种降维技术,确保在多样化的游戏行业应用中的效率和可扩展性。这些方法产生了对用户丰富而紧凑的理解,显著提高了下游任务的性能,尤其是LTV预测。
我们的实验结果验证了MDLUR的优势;它在基线测试中超越了当前的行业模型,并在真实世界数据集的离线测试中展现了引人注目的性能。因此,MDLUR提高了生命周期价值预测的准确性,增强了对玩家行为和参与度的理解,并提高了在线游戏行业的效率。
尽管取得了这些进步,但仍有很大的改进空间。整合额外的数据源以包含更广泛的方面可以增强模型在各种下游任务上的性能。探索复杂的架构和技术,如BERT [26]和采样方法 [19, 20, 22],也可能会提高性能。此外,我们已经开始利用集成梯度 [21] 进行特征重要性测试,这将提供每个特征对每个用户预测贡献的见解。这种理解可以带来更有效的商业策略和个性化的玩家体验。未来,我们计划通过迁移学习和微调扩展下游任务,同时结合持续学习 [15] 以新数据不断更新模型。将进一步开展研究,以充分发挥MDLUR的潜力,提高游戏行业下游任务的性能。