ExpLTV通过专家路由和大R识别预测用户生命周期价值

原创已于 2024-06-19 07:12:29 修改 · 1.9k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #预测用户付费 #游戏AI应用 #transformer #深度学习 #人工智能

于 2024-06-19 07:07:50 首次发布

用户数据大模型同时被 2 个专栏收录

11 篇文章

订阅专栏

用户生命周期价值预测

11 篇文章

订阅专栏

摘要

客户生命周期价值（LTV）预测对于移动游戏发行商来说至关重要，他们试图根据估计的用户价值来优化每次用户获取的广告投资。在移动游戏中，部署微交易是一种简单而有效的货币化策略，这吸引了一小部分在游戏内购买上挥霍无度的“游戏鲸鱼”。这些游戏鲸鱼的存在可能会阻碍现有 LTV 预测模型的实用性，因为游戏鲸鱼的购买行为总是表现出与普通用户不同的分布。因此，识别游戏鲸鱼可以为提高 LTV 预测模型的准确性开辟新的机会。然而，很少有研究关注将游戏鲸鱼检测应用于 LTV 预测，现有的工作主要专注于长期 LTV 预测，假设可以获得高质量的用户特征，这在用户获取阶段并不适用。在本文中，我们提出了 ExpLTV，一种新颖的多任务框架，用于在统一的方式下执行 LTV 预测和游戏鲸鱼检测。在 ExpLTV 中，我们首先创新性地设计了一个基于深度神经网络的游戏鲸鱼检测器，该检测器不仅可以根据货币价值推断内在顺序，还可以精确识别高消费用户（即游戏鲸鱼）和低消费用户。然后，通过将游戏鲸鱼检测器作为一个门控网络来决定 LTV 专家集合的不同混合模式，我们可以充分利用共享信息和场景特定信息（即游戏鲸鱼建模和低消费用户建模）。最后，我们设计了一个共享的估计器，而不是为两个任务分别设计一个购买率估计器，这样可以保持内部任务关系。通过对三个工业数据集进行广泛实验，进一步验证了 ExpLTV 在 LTV 预测和游戏鲸鱼检测有效性方面的优越性。

1 引言

对于收入最高的游戏来说，完善的用户获取（UA）策略是扩大用户基础的特权。没有有效的策略，游戏发行商将错失大量将更多有价值用户转化的机会。获取新用户关注在线服务以推广游戏的最简单方法是付费广告。大多数社交媒体（如新浪微博）拥有大量活跃用户的实时竞价服务，用于在线广告向其用户投放付费广告，因此这是与目标消费者联系和推广游戏的有效方式。

客户生命周期价值（LTV）是指公司在特定时间段内可以归因于客户的总价值。估计长期收入对于个性化客户关系管理（CRM）至关重要，同时也能预测新客户的短期价值，以调整广告投资预算。对于每次广告展示，广告商可以计算目标游戏中客户 LTV 值的早期估计，然后使用预测值调整最终竞价价格，从而提高竞标有价值用户的成功率并优化营销预算。在这种情况下，LTV 预测的准确性意味着预测的 LTV 值应与真实 LTV 值一致排序，错误的 LTV 预测将导致额外的市场预算和 UA 成功率下降。在这方面，已经开发了多种 LTV 预测模型用于各种应用。

早期的 LTV 预测方法假设购买行为为概率分布，然后采用概率生成模型预测未来的购买值和客户流失。另一种研究方法提出了基于机器学习的模型，学习手工特征与游戏玩家货币价值之间的映射。例如，某研究设计了一个随机森林模型在 Groupon 上预测单个用户的未来价值。最近，深度学习技术的显著发展为提高 LTV 预测模型的性能带来了更多机会。一项研究采用卷积神经网络自动学习时间表示用于 LTV 预测。为处理货币价值的波动和稀疏数据，另一项研究采用时间趋势编码器和图注意网络分别学习时间和结构表示。另一项研究在快手提出了一种工业解决方案，通过多种分布模型预测用户的日活跃用户数，以应对复杂分布。

尽管现有 LTV 预测在许多实际应用中有效，但大多数方法在我们的场景中并不适用。这些方法主要集中于长期 LTV 预测，假设可以获得丰富和高质量的用户特征。例如，为了直接预测第 30 天的 LTV，所提模型需要访问大量用户的第 120 天 LTV 和用户特征。由于应用更新、用户兴趣变化和时间敏感性，为游戏推广构建短期 LTV 预测模型具有重要的实际意义。此外，随着游戏行业的发展，微交易已成为提高收入和改善用户生命周期的常规手段，尤其是对于免费游戏。玩家可以购买额外的游戏内物品来装饰角色、升级武器或获得额外奖励。这种微交易吸引了许多在游戏内购买上挥霍无度的“游戏鲸鱼”。在这种不可预测和极端购买行为的存在下，前述 LTV 预测模型在移动游戏背景下的性能会受到不同程度的影响，因为这些模型设计时没有考虑到游戏鲸鱼，并且对大值敏感。

在移动游戏中，游戏鲸鱼（GW）代表了用户中最小的比例，但他们贡献了高达 50%-80%的收入销售。因此，在 UA 阶段识别这些游戏鲸鱼是至关重要的。赢得这些客户可以创造一个正反馈循环，他们为游戏运营带来更多利润。尽管检测游戏鲸鱼的重要性，现有大多数解决方案直接使用预测的 LTV 值作为检测高价值用户的主要指标。由于游戏鲸鱼稀少且相应的 LTV 值与普通用户大相径庭，纯 LTV 预测模型在高度不平衡的数据集中无法在极少数标签上表现良好，从而导致游戏鲸鱼检测任务的性能较差。

为了提供概念验证，我们在图 1 中展示了游戏 A 的 LTV 分布。显然，游戏鲸鱼的 LTV 值显示出与低消费用户不同的长尾分布。此外，直接在游戏鲸鱼检测任务中使用传统的深度学习模型将遭受样本选择偏差（SSB）和数据稀疏性（DS）问题。SSB 问题是由于训练过程中数据子集被欠采样，从而显著偏差推断空间中的估计值。具体来说，GW 检测模型在由付费用户组成的数据集上训练，而用于对所有转化用户样本进行推断。这种偏差训练会导致在线服务中的严重性能下降。此外，具有突出 LTV 值的游戏鲸鱼远少于普通用户，因此需要一种新范式来有效应对长期存在的数据稀疏性问题。

为此，我们旨在提出一种名为 ExpLTV 的新颖多任务框架，充分利用 GW 检测来提高 LTV 预测的准确性。我们创新性地设计了一个映射函数来计算用户成为游戏鲸鱼的概率，并将二元分类任务转化为回归任务。这样，专门设计的检测器不仅可以捕捉货币价值的内在顺序，还可以生成低消费用户和高消费用户的概率，从而对用户进行分类以进行定制的游戏营销。此外，为同时消除上述 SSB 和 DS 问题，我们形成了一个新的顺序行为“转化 → 购买 → 游戏鲸鱼”，其中前置行为更为丰富，然后提出两个辅助任务：预测购买通过率（PTR）和购买通过&游戏鲸鱼率（GWPTR），通过多任务学习进行训练。这样，我们的模型可以利用辅助任务和整个空间中的所有样本的额外监督信号。为了实现准确的 LTV 预测，我们提出了两个新颖的 LTV 专家来建模用户的货币价值，而不是一个 LTV 模型来服务所有用户。受到某研究的启发，在每个 LTV 专家中，我们将 LTV 的分布建模为零膨胀对数正态（Ziln）分布，该分布由购买率、均值和标准差参数组成。相应地，我们的 LTV 预测模型通过零膨胀对数正态损失进行优化，可以最小化模型对游戏鲸鱼大值的敏感性。此外，我们将 GW 检测器作为门控网络，将用户路由到正确的专家。通过这种方式，每个专家专注于特定类型的用户，从而适应不同的场景（即高消费用户和低消费用户建模）并保持区分特性。最后，LTV 组件中训练的购买率估计器也用于 GW 检测，可以捕捉任务相关性。因此，这两个组件紧密结合，发挥其互补优势。

总的来说，我们总结了我们的贡献如下：

据我们所知，我们是第一个提出研究 LTV 预测任务与游戏鲸鱼检测任务之间互惠关系的想法。
我们提出了 ExpLTV，一种新颖的多任务框架，绕过了传统 LTV 预测方法的缺点，允许游戏鲸鱼检测器作为门控网络，将用户分配到正确的 LTV 专家集合中进行训练。
为缓解 GW 检测中的 SSB 和 DS 问题，我们形成了一个新的顺序行为“转化 → 购买 → 游戏鲸鱼”，并将 GW 检测转化为两个辅助任务（即 PTR 和 GWPTR）。此外，PTR 估计器与 LTV 模型中的购买率估计器共享相同的模型参数，可以捕捉任务相关性，从而提高相应的性能。
在三个工业数据集上进行了广泛的实验，以评估 ExpLTV 的性能，实验结果表明 ExpLTV 在 LTV 预测和 GW 检测任务中均取得了优越的性能。

2 初步概念

在本节中，我们首先回顾关键概念，然后数学地表述我们的研究问题。值得注意的是，向量和矩阵分别用粗体小写和粗体大写字母表示，集合用花体大写字母表示。

定义 1（客户生命周期价值）： $LTV_u^T$ 是指在特定时间段 $T$ 内客户对移动游戏的总价值。在本研究中， $T$ 是一个常数值，因此我们用 $LTV_u$ 代替 $LTV_u^T$ 以简化表示。

定义 2（游戏鲸鱼）：在移动游戏中，游戏鲸鱼代表一组负责大部分应用内收入的用户。形式上，我们用 $g_u$ 表示用户 $u$ 的身份标签。在我们的情况下，如果用户 $u$ 的 $\geq R$ ，那么用户 $u$ 定义为游戏鲸鱼，且 $g_u = 1$ 。由于游戏鲸鱼的购买行为应被观察到，我们用 $s_u = 1$ 表示。

定义 3（游戏鲸鱼和购买概率）：对于用户 $u$ ， $p_u^{gwptr}$ 表示用户 $u$ 的购买和成为游戏鲸鱼的概率。具体来说，我们设计了一个映射函数根据可用的 LTV 值计算 $p_u^{gwptr}$ ：

$p_u^{gwptr} = p(g_u = 1, s_u = 1|x_u) = 1 - e^{-\frac{LTV_u}{R}}$

注意， $p_u^{gwptr} = 0$ ，当且仅当 $LTV_u = 0$ 。

定义 4（条件游戏鲸鱼概率）：GW 检测的目的是估计 $p_u^{gw}$ ，表示在观察到用户 $u$ 的购买行为后，被检测为游戏鲸鱼的条件概率。对于一个转化用户 $u$ ， $p_u^{gw}$ 可以表示为：

$p_u^{gw} = p(g_u = 1|s_u = 1, x_u)$

注意， $p_u^{gw}$ 作为条件概率通常通过贝叶斯定理获得。

任务 1. 游戏鲸鱼检测：对于每个用户 $\in \mathcal{U}$ ，我们构建一个特征向量 $x_u \in \mathbb{R}^m$ ，其中 $x_u$ 由密集特征（如购买频率）、分类特征（如性别）和序列特征（如购买行为）组成。给定一组样本 $\{(x_u, p_u^{gwptr}) \in \mathcal{X} \times [0, 1] : u \in \mathcal{U}\}$ ，游戏鲸鱼检测器被训练来估计用户的概率 $\hat{p}_u^{gw} \in [0, 1]$ 。通过计算出的可排序概率，GW 检测任务的目标是通过选择前 K 名用户推荐一组游戏鲸鱼：

其中 $\Theta_1$ 表示 GW 检测器的参数。注意，第 3.3 节将介绍我们在此任务中使用 $p_u^{gwptr}$ 作为标签而不是 $g_u$ 的原因。

任务 2. 客户生命周期价值（LTV）预测：给定一组样本 $\{(x_u, LTV_u) \in \mathcal{X} \times \mathbb{N}^+ \cup \{0\} : u \in \mathcal{U}\}$ ，我们旨在预测新注册或新回归用户 $u$ 的 $LTV_u$ ，可以表示为：

$\hat{LTV}_u = f (x_u |D, \Theta_2)$

其中 $\Theta_2$ 表示 LTV 预测器的参数。

3 方法论

3.1 ExpLTV 概述

我们提出的 ExpLTV 包括两个关键组件，分别执行游戏鲸鱼检测和 LTV 预测。在游戏鲸鱼检测任务中，我们精心设计了两个辅助任务，提供充足的监督信号，以消除 SSB 和 DS 问题的影响。为了实现 LTV 预测的满意性能，我们采用[41]作为每个 LTV 专家模型的主要构建模块，其中 LTV 的分布被建模为零膨胀对数正态（ZILN）分布，因为它能够处理极端的大 LTV 标签，即游戏鲸鱼的 LTV 值。需要注意的是，这两个组件相互增强。具体来说，通过 GW 检测器将用户分类为游戏鲸鱼和低消费者的概率被用作权重，将每个用户路由到正确的 LTV 专家，而在两个任务中学习的购买率估计器可以学习任务关系，从而提升 GW 检测器的性能。接下来，我们将详细介绍每个组件。

3.2 嵌入层

如图 2 所示，我们首先利用一个全连接的嵌入层将特征向量 $x_u$ 转换为低维密集表示，表示为低级嵌入：

$e_u = Mx_u, \forall u \in \mathcal{U},$

其中 $\in \mathbb{R}^{m \times d}$ 是特征转换矩阵， $d$ 是 $e_u$ 的维度。在每次前向迭代中，为了获得表示为 $e^*_u$ 的高级嵌入，交互层 $IntLayer(\cdot)$ 被设计用来保留来自低级嵌入 $e_u$ 的特征交互信息。值得注意的是，序列特征的嵌入通过顺序 $IntLayer(\cdot)$ 转换，例如 BST [9]，而非序列特征将通过一般编码方法（如 deepFM [18] 或 WDL [11]）学习。高级嵌入可以表示为：

$e^*_u = IntLayer(e_u), \forall u \in \mathcal{U},$

其中 $d_1$ 是 $e^*_u$ 的维度。

3.3 游戏鲸鱼检测

检测游戏鲸鱼的最直接方法是训练一个监督分类器，该分类器可以找到用户的高级嵌入 $e^*_u$ 和身份标签 $g_u$ 之间的有意义的映射。然而，这种基于阈值将用户简单地划分为两组（即普通用户和游戏鲸鱼）的解决方案，无法正确反映用户的货币价值顺序。尽管分类器经过良好训练，但它不仅无法区分非消费用户和低消费者，还无法在有限的广告预算下帮助广告平台找到最有价值的用户。因此，我们将 GW 检测视为一个由真实值 $p_u^{gwptr}$ （在第 2 节中定义）训练的回归任务。根据我们真实日志的数据分析，只有约 0.7%的用户被标记为游戏鲸鱼，这本质上导致了数据稀疏问题。直观地，我们发现购买行为的数据量（即约 11%的总用户）作为成为游戏鲸鱼的前提行为要大得多。因此，解决 GW 检测中数据稀疏问题的实际解决方案是将购买行为建模作为辅助任务绑定到 GW 检测任务中。具体来说，给定训练数据集 $\{(x_u, LTV_u, p_u^{gwptr}) : u \in \mathcal{U}\}$ ，我们首先将购买概率估计器 $f_{ptr}(\cdot)$ 建模为一个输入学习到的高级嵌入 $e^*_u$ 的深度神经网络（DNN），并计算预测的购买概率 $\hat{p}_{ptr}$ ，可以表示为：

$\hat{p}_u^{ptr} = p(s_u = 1|x_u),$

然后，用户 $u$ 的游戏鲸鱼和购买概率 $p_u^{gwptr}$ 可以根据贝叶斯定理计算：

$\hat{p}_u^{gwptr} = p(g_u = 1, s_u = 1|x_u) = p(s_u = 1|x_u) \times p(g_u = 1|s_u = 1, x_u) = \hat{p}_u^{ptr} \times \hat{p}_u^{gw},$

注意，由于游戏鲸鱼必须发生购买行为，方程(8)成立。

此外，由于用户的 LTV 值通常表现出长尾偏斜分布，低消费者始终占所有消费者的大多数，这说明了低消费者在 LTV 预测中的重要性。因此，我们方法的一个关键创新是我们提出的 GW 检测器能够从非消费用户中提炼出低消费者。具体来说，我们提出了一个基于 DNN 的 GW 检测器 $f_{gwd}(\cdot)$ ，通过最终的 softmax 层计算一个二维概率分布向量 $\hat{y}$ 。在 $\hat{y}$ 中，我们让第一个元素 $\hat{y}[0]$ 表示条件概率 $\hat{p}_u^{gw}$ ，然后 $\hat{y}[1]$ 表示为 $\hat{p}_u^{ngw}$ 是在观察到用户 $u$ 的购买行为后，被识别为低消费者的条件概率。基于贝叶斯定理，用户 $u$ 的普通用户（即低消费者或非消费用户）的概率 $p_u^{ngwptr}$ 可以表示为：

$\hat{p}_u^{ngwptr} = p(g_u = 1, s_u = 0|x_u) + p(g_u = 0, s_u = 1|x_u) + p(g_u = 0, s_u = 0|x_u) = p(s_u = 0|x_u) + p(s_u = 1|x_u)p(g_u = 0|s_u = 1, x_u) = (1 - \hat{p}_u^{ptr}) + \hat{p}_u^{ptr} \times \hat{p}_u^{ngw},$

其中 $\hat{p}_u^{ngw}$ 可以作为识别低消费者的主要指标。

通过上述操作，我们可以得到 $\hat{p}_u^{gw}$ ( $\hat{p}_u^{ngw}$ ) 是计算 $\hat{p}_u^{gwptr}$ ( $\hat{p}_u^{ngwptr}$ ) 的中间变量，该变量在整个输入空间 $\mathcal{X}$ 上得出。为了避免样本选择偏差问题，一个直观的方法是通过采用多任务学习框架同时建模相关因子 $\hat{p}_u^{gwptr}$ ( $\hat{p}_u^{ngwptr}$ ) 而不是 $\hat{p}_u^{gw}$ ( $\hat{p}_u^{ngw}$ )。为了实现这一点，GW 检测损失被公式化为：

$L_{GWD} = \sum_{u \in D} l_1(s_u, f_{ptr}(x_u; \Theta_{ptr})) + D_{KL}(y||\hat{y}),$

其中 $\Theta_{ptr}$ 是估计器 $f_{ptr}(\cdot)$ 的参数集， $l_1(\cdot)$ 是交叉熵损失函数， $y$ 是 $p_u^{gwptr}$ 和 $p_u^{ngwptr}$ 的连接。注意， $p_u^{ngwptr} = 1 - p_u^{gwptr}$ 基于定义。 $D_{KL}$ 是 KL 散度损失函数，作为严格约束来缩小 GW 检测器生成的分布和真实分布之间的距离。

3.4 LTV 预测

预测用户级 LTV 具有挑战性，但对于大多数以用户为中心的平台来说是不可或缺的。特别是在在线广告中，基于坚实方法论的 LTV 预测系统在为流媒体广告空间生成合理的竞价中起着关键作用。然而，用户的 LTV 值通常表现出长尾分布。由这些严重不平衡的数据训练的传统回归器通过均方误差（mse）损失优化，无法避免偏向多数标签，而更重要的少数标签（即游戏鲸鱼的 LTV 值）将表现不佳。受[41]的启发，我们将回归任务转化为预测三个元素的任务，即购买概率 $p$ 、均值参数 $\mu$ 和标准差参数 $\sigma$ 。每个元素估计器 $f_{LTV_i}(\cdot)$ 设计为相同的深度神经网络结构，输入一个学习到的隐藏嵌入 $e^*_u$ 。

其中 DNN 最后一层的激活逻辑单元分别为 sigmoid（ $p$ ）、恒等（ $\mu$ ）和 softplus（ $\sigma$ ）。此外，大多数移动游戏从少量游戏鲸鱼中获得显著收入，这些游戏鲸鱼表现出与普通用户不同的分布。具有显著大范围的训练数据不可避免地会阻碍模型从用户特征向量到 LTV 值的准确映射的能力。这些限制促使我们提出一种新颖的 LTV 预测系统，该系统可以根据用户类型（即高消费者或低消费者）自动分配正确的 LTV 专家来建模用户的货币价值。由于估计器 $f_{LTV_\mu}(\cdot)$ 和 $f_{LTV_\sigma}(\cdot)$ 描述了 LTV 分布，每个包含这两个组件的 LTV 专家设计为相同的模型结构。

然后，为了自动学习最佳的 LTV 专家组合，我们创新性地将 $\hat{y}_u$ （即高消费者和低消费者的指示概率）作为权重来计算最终的分布参数（即 $\mu$ 和 $\sigma$ ）：

$\mu = \hat{y}_u \cdot \mu_e = \hat{p}_u^{gw} \mu_e[0] + \hat{p}_u^{ngw} \mu_e[1],$

$\sigma = \hat{y}_u \cdot \sigma_e = \hat{p}_u^{gw} \sigma_e[0] + \hat{p}_u^{ngw} \sigma_e[1],$

其中 $\mu_e$ 和 $\sigma_e$ 是专家输出的聚合，即 $\mu_e = \mu_1 \oplus \mu_2$ 和 $\sigma_e = \sigma_1 \oplus \sigma_2$ 。通过上述操作，我们可以相应地计算 $d_{LTV_u}$ ：

$d_{LTV_u} = p \cdot e^{\mu + \frac{\sigma^2}{2}},$

最后，我们采用零膨胀对数正态（ZILN）损失[41]，该损失设计用于处理零和极大 LTV 标签，以优化我们的 LTV 预测任务：

$L_{LTV} = l_1(I_{s_u > 0}; p) + \left[I_{s_u > 0} \log(s_u \sigma \sqrt{2\pi}) + \left(\log s_u - \mu - \frac{\sigma^2}{2}\right)^2\right],$

其中第一项是用于优化估计器 $f_{LTV_p}(\cdot)$ 的交叉熵损失，第二项（称为 $L_{lognormal}$ ）是量化预测损失的回归损失。

3.5 模型训练

在本节中，我们定义了 ExpLTV 的损失函数以进行模型训练。值得一提的是，设计用于两个任务的估计器 $f_{LTV_p}$ 和 $f_{ptr}$ 在我们的模型中共享相同的模型参数。原因是共享模型设计不仅可以减少计算资源，还可以通过从不同角度捕获互相的知识来提升 GW 检测和 LTV 预测任务的性能。因此，我们从方程(10)中移除了第一个交叉熵损失。由于我们模型的所有组件都是端到端可微的，我们结合它们的损失并使用联合学习来优化以下目标函数：

$L_{GWD} + \lambda L_{LTV}$

4 实验

在本节中，我们首先概述我们模型的评估协议，然后在三个工业数据集上进行实验，以评估我们模型的性能。特别是，我们通过实验旨在回答以下研究问题（RQs）：

RQ1: 我们的模型是否在 LTV 预测任务中达到了新的最先进水平？
RQ2: 与基线方法相比，我们的模型在检测游戏鲸鱼时表现如何？
RQ3: 我们能通过可视化方法验证我们的贡献吗？
RQ4: 我们的模型如何从每个关键组件中受益？
RQ5: 超参数如何影响我们模型在不同任务中的性能？

4.1 实验数据集

为了验证我们提出的模型在两个任务中的性能，我们在从腾讯移动游戏收集的三个工业数据集上进行了实验。每个数据集中的用户属性包含数值特征（例如年龄）、分类特征（例如性别）和序列行为特征（例如购买记录）。然后，我们通过将用户的 $T$ 天累积消费记录作为标记的 LTV 值（即 $LTV_u$ ）来处理每个数据集。需要注意的是，一个准确的模型需要访问大量具有 $LTV_u$ 的用户，即模型至少在 $T$ 天前开始使用在线服务。由于应用更新、市场和用户基础的频繁变化，时间敏感（即较小的 $T$ 天 LTV）策略在游戏广告中是最佳实践。因此，我们在这种情况下设置 $T = 7$ 。由于收集的数据集是时间相关的，我们取前 40 天的数据集来训练模型，3 天的数据集进行验证，3 天的数据集进行性能评估。

我们的数据集的主要统计数据如表 1 所示。

4.2 评估协议

为了评估我们 LTV 预测模型的有效性，我们采用了两个流行的指标，即 AUC 和归一化 GINI（GINI）。较大的值表示更好的准确性。AUC 衡量的是设计用于分类消费用户和非消费用户的估计器 $f_{ptr}(\cdot)$ 的性能。同样，GINI 纯粹基于预测的排名。在我们的案例中，预测的 LTV 值被用作广告竞价中的一个重要因素，因此我们遵循[41]来量化我们模型在 GINI 方面的排名准确性。

对于 GW 检测，我们利用广泛使用的排名指标 Recall@K（R@K）。假设我们根据被识别为游戏鲸鱼的预测概率（即 $\hat{p}_{gw}$ ）选择前 K 个用户作为最可能的游戏鲸鱼，R@K 是选择的游戏鲸鱼（即 $\{u|u \in GWD(D, \Theta_1), g_u = 1\}$ ）在所有游戏鲸鱼（即 $\{u|u \in U, g_u = 1\}$ ）中的比例。相应地，较大的 R@K 表示更强的 GW 检测效果。

4.3 基线

我们在两个任务上将我们的模型与以下基线进行比较，其中只有前两个是通过 MSE 损失训练的，其他都是通过 Ziln 损失训练的。值得注意的是，对于那些仅设计用于 LTV 预测任务的基线，基于预测的 LTV 值（即 $d_{LTV}$ ）选择前 K 个可能的游戏鲸鱼，以评估在 GW 检测中的性能。此外，由于 TSUR [43] 和 Marfnet [44] 专门设计用于更好地研究用户表示，这在我们的框架中是适用的，因此它们没有被选为可比较的方法。

Kuaishou (KS) [26]: 该工作旨在通过提出一种新的 MDME 模型来处理 LTV 值的复杂和不平衡分布。
WhalesDetector (WD) [8]: 它使用三层 CNN 来预测 LTV 值，然后基于结果检测有价值的用户。
WDL [11]: 它被提议用于建模低阶和高阶特征交互。
DeepFM [18]: 深度 FM 结合了 FM [31] 和深度神经网络来建模成对特征交互。
DCN [40]: 提出了一种新颖的交叉网络来显式地建模特征交互。
Ziln Loss (ZL) [41]: 在这项工作中，设计了一种新的零膨胀对数正态损失来处理不平衡的回归问题。
基于 DNN 的回归器 (SimGW): 通过添加基于 DNN 的回归器来检测 GW 用户，是 ZL 的升级版本。
基于 DNN 的分类器 (SimGW2): 通过结合基于 DNN 的二元分类器来检测 GW 用户，是 ZL 的升级版本。

4.4 参数设置

在我们的模型中，我们将潜在维度 $d$ 、学习率和批量大小分别设置为 8、0.0001 和 128。模型参数使用高斯分布随机初始化。所有估计器 $f_x(\cdot)$ 被构建为具有 8 个隐藏维度的 2 层深度神经网络。对于损失函数 $L$ 中的系数，我们在 GAME A 上设置 $\lambda = 15$ ，在 GAME B 和 GAME C 上设置 $\lambda = 10$ 。

4.5 LTV 预测有效性（RQ1）

客户生命周期价值预测是广告竞价平台成功的关键部分，因为广告商可以使用预测结果智能调整每个广告空间的竞价价格。

我们在图 3 中总结了所有模型在 LTV 预测方面的 AUC 和 GINI 性能。注意，WD 和 KS 方法通过原始论文报告的 MSE 损失优化，因此 AUC 结果不可用。基于实验结果，我们讨论以下关键发现。

显然，我们提出的模型在所有三个数据集上在 GINI 方面始终大幅优于所有基线，表明我们的模型成功地为广告商提供了合理的竞价价格，尽管营销预算有限。具体来说，与最佳基线相比，我们的模型在 GAME A、GAME B 和 GAME C 上分别带来了 1.5%、3.8%和 6.2%的相对改进。此外，比较的 LTV 预测模型在 GINI 方面表现出显著的性能差异。通过 Ziln 损失优化的模型通常在所有数据集上表现优于通过 MSE 损失优化的模型，这表明 Ziln 损失的优越性，因为它能够处理 LTV 值的长尾特性并且对极大值不敏感。尽管 KS 模型在 KUAISHOU 中处理复杂和不平衡的 $T$ 天 LTV 值（即 DAU）分布时被证明是有效的，但在我们的场景中并不适用。一个可能的原因是少量的分布专家可以限制 KS 在建模游戏鲸鱼极端行为方面的表现，而大量的分布专家可能会导致过拟合问题和过多的计算资源。最后，我们的模型在用户排名方面最强大，仍然在 AUC 结果上取得了竞争力，与纯 LTV 预测方法相比。事实证明，共享模型结构的特定设计可以增强估计器 $f_{ptr}(\cdot)$ 的性能，因为它可以从两个内部相关任务中学习到互相的知识。

4.6 鲸鱼用户检测（RQ2）

游戏鲸鱼是为移动游戏带来最多收入的一小部分用户。因此，对于广告商来说，尤其是对于收入最高的游戏，识别这类用户在大量新用户中是至关重要的。为了定量评估 ExpLTV 在 GW 检测中的有效性，我们从不同角度提供了全面的分析。

我们首先在表 2 中报告所有测试方法的总体检测性能。注意，通过增加搜索空间（即 $K$ 的值），检测器更容易检索到游戏鲸鱼。我们可以得出的第一个观察结果是，我们的模型在检测游戏鲸鱼方面是成功的。特别是，当 $K = 5000$ 时，GW 检测器对其检测结果非常有信心，所有数据集中超过 70%的游戏鲸鱼可以准确地被识别出来。其次，我们的模型始终优于所有基线方法。随着搜索空间的减少，ExpLTV 的改进显著增加。在 GAME A 上，我们的模型在 $K = 500$ 时相对提高了 11.4%，表明 ExpLTV 即使在极其有限的搜索预算下也能捕捉到最有价值的游戏鲸鱼。此外，在 LTV 预测任务中表现较好的模型在 GW 检测中可能表现不佳。例如，WLD 和 DeepFM 在 GINI 方面优于 DCN，而 R@K 值略低。由于纯 LTV 模型设计中缺乏对游戏鲸鱼的关注，训练良好的模型仅限于在多数标签（即低消费者的 LTV 值）上表现良好，因此无法始终将游戏鲸鱼排在非游戏鲸鱼之上。为了证明这一点，我们进一步计算了所有消费者的 GINI（ $GINI_1$ ）和高消费者的 GINI（ $GINI_R$ ）。与最佳基线（即 GAME A 和 GAME C 上的 DCN，以及 GAME B 上的 DeepFM）相比，改进在 GAME A 上分别达到 0.074（ $GINI_1$ ）和 0.303（ $GINI_R$ ），在 GAME B 上分别达到 0.04（ $GINI_1$ ）和 0.082（ $GINI_R$ ），在 GAME C 上分别达到 0.054（ $GINI_1$ ）和 0.122（ $GINI_R$ ）。结果进一步验证了纯 LTV 模型在 GW 检测任务中的不实用性。此外，利用回归器检测游戏鲸鱼的 SimGW 优于将检测器设计为简单二元分类器的 SimGW2，这验证了我们核心思想的有效性。

由于 GW 检测器的主要用途是以有限的搜索预算找到最有价值的用户，我们进一步从细粒度视角测试所有基线的检测结果质量。具体来说，我们将标记的游戏鲸鱼根据 LTV 值划分为十个等级，然后计算每个等级以上的检测到的游戏鲸鱼数量。

图 4 报告了 $K = 500$ 和 $K = 1000$ 的结果。显然，ExpLTV 始终取得最佳性能，验证了我们的模型不仅可以检测到更多的游戏鲸鱼，还可以准确捕捉那些对游戏收入有更显著影响的最有价值的游戏鲸鱼。

4.7 可视化结果（RQ3）

我们是第一个将 GW 检测作为辅助任务来提升 LTV 预测性能的，特别是针对游戏鲸鱼，因为它们的极大且不平衡的标签展示了与普通消费者显著不同的分布。为了验证 ExpLTV 中 GW 检测的必要性，我们通过 t-SNE 在图 5 中可视化了 ExpLTV 和纯 LTV 预测模型（即 ZL）的上层潜在嵌入 $e_u^*$ 。

从图 5 可以看出，潜在嵌入在 ExpLTV 中根据用户类型形成了几个明显的簇。具体来说，有两个大的红色游戏鲸鱼簇，一个小的和一个大的蓝色普通用户簇。尽管在 ZL 中可以观察到几个小簇，但大多数潜在嵌入是混合在一起的。此外，只有几个游戏鲸鱼被强制分配到错误的簇中。因此，我们模型中编码的有用信息所产生的判别性嵌入证明了 GW 检测在 LTV 预测中的显著益处。

4.8 消融研究（RQ4）

为了更好地理解我们模型中不同主要组件带来的性能提升，我们实现了几个降级版本的 ExpLTV 进行消融分析。

表 3 总结了在 AUC、GINI 和 R@K 方面的两个任务的结果。以下是我们描述的所有变体，并分析相应模型组件的有效性。

移除 LTV 专家（ExpLTV-ne）

在我们的模型中，预测的 LTV 值是通过 Eq.(12)聚合每个 LTV 专家的输出生成的。为了验证 LTV 专家的有用性，我们仅保留一个 LTV 专家，并将其结果作为 LTV 预测的最终输出，然后使用联合学习来优化最终目标函数。从表 3 可以推断，与设计有多个 LTV 专家的方法（即 ExpLTV-nssb 和 ExpLTVs-sp）相比，ExpLTV-ne 在 LTV 预测中的表现最差，这验证了充分利用 LTV 专家来捕捉高消费和低消费之间分布差异的重要性。此外，在 GW 检测任务中可以观察到轻微的性能下降。一个可能的原因是，用户特定的 LTV 专家通过设计可以提升游戏鲸鱼的 LTV 预测准确性，从而相应地增强 GW 检测的有效性。

移除序列行为学习（ExpLTV-nssb）

这个变体通过首先移除估计器 $f_{ptr}(\cdot)$ ，然后重写 $\hat{y} = [\hat{p}_{gw}, \hat{p}_{ngw}]$ 来禁用“转换 → 购买 → 游戏鲸鱼”序列行为学习，即 $\hat{p}_u^{gw} (\hat{p}_{ngw})$ 是 $\hat{p}_u^{gwptr} (\hat{p}_{ngwptr})$ 的近似值。由于 ExpLTV-nssb 不再将购买率预测作为辅助任务纳入 GW 检测以对抗数据稀疏和样本选择偏差问题，因此在 GW 检测中的表现较差。对于 R@500，性能显著下降在 GAME A 上达到 20.7%，在 GAME B 上达到 12.6%，在 GAME C 上达到 12.9%。此外，GINI 的轻微性能下降验证了共享的购买率估计器为两个任务设计可以提升 LTV 专家的表达能力。因此，新的序列行为学习展示了其在我们模型中性能提升的强大贡献。

为每个任务使用单独的购买概率估计器（ExpLTV-sp）

ExpLTV 和 ExpLTV-sp 之间的一个关键区别是购买概率估计器 $f_{ptr}(\cdot)$ 的设计。由于 LTV 预测和 GW 检测是两个密切相关的任务，共享估计器可以捕捉任务之间的内在关系。作为 ExpLTV 的核心部分，我们进一步验证了共享估计器 $f_{ptr}(\cdot)$ 的有效性。ExpLTV 在所有数据集上的两个任务中始终优于 ExpLTV-sp。在 GAME A 上，性能下降在 AUC 上达到 1.64%，在 GINI 上达到 7.1%，在 R@500 上达到 16%，在 R@1000 上达到 2.4%。结果进一步验证了从两个视角训练的估计器可以学习到互相的知识，从而提升两个任务的性能。

4.9 超参数敏感性（RQ5）

为了回答 RQ4，我们进一步研究了 ExpLTV 在 GAME A 上两个不同超参数变化下的性能波动，即 Eq (15)中的 LTV 预测损失和 GW 检测损失之间的权衡系数 $\lambda$ 以及潜在维度 $d$ 。基于 ExpLTV 的标准设置 { $\lambda = 15$ }，我们调整一个超参数的值，同时保持另一个不变，并在图 6 中报告两个任务的新结果。具体来说，我们通过绘制 LTV 预测的 AUC 和 GINI 来记录性能差异，同时展示 GW 检测的 R@500 和 R@1000。

$\lambda$ 的影响

我们研究了模型对 $\lambda$ 值 {4, 6, 8, 10, 12, 15} 的敏感性，该值控制 LTV 预测和 GW 检测之间的权衡。如预期的那样，随着 $\lambda$ 从 4 增加到 15，LTV 预测的性能略有下降，而 GW 检测的性能呈上升趋势。幸运的是，改变这个系数对 LTV 预测的影响较小。因此，设置 $\lambda = 15$ 足以提高 GW 检测的准确性，同时确保 ExpLTV 的 LTV 预测性能令人满意。

$d$ 的影响

我们在 {4, 6, 8, 10, 12} 中调整维度 $d$ 的值。一般来说，维度 $d$ 的值直接控制我们模型的表达能力。随着 $d$ 从 4 增加到 10，可以观察到 ExpLTV 性能的波动性增长。然而，当 $d$ 超过 10 时，性能提升趋于停止。

从图 6（c）和（d）中可以推断，我们的模型在 $d = 8$ 时可以在 LTV 预测和 GW 检测中取得最佳或次佳结果，因此我们设置 $d = 8$ 以在两个任务的准确性之间取得平衡。

5 相关工作

LTV 预测

了解企业可以从客户那里预期的总收入在用户获取中非常重要 [24, 30, 39, 44]。在文献中，已经提出了许多 LTV 预测模型，这些模型可以分为基于概率、基于机器学习和基于深度学习的方法。基于概率的方法假设购买行为为概率分布，然后提出概率生成模型来预测 LTV 值 [15, 16, 19, 32]。例如，[15] 提出了一个将 RFM 范式 [29] 与 LTV 值联系起来的随机模型。基于机器学习的方法旨在通过机器学习技术学习手工特征与游戏玩家货币价值之间的映射 [7, 12, 19, 37]。例如，[12] 采用随机森林模型来预测 Groupon 中用户级别的 LTV 值。近年来，基于深度学习的技术在 LTV 预测中取得了成功的发展。[8] 设计了一个卷积神经网络用于 LTV 预测，以更好地建模时间表示。ZL [41] 将 LTV 值的分布建模为 Ziln 分布，以捕捉训练数据的长尾特性。同时，Ziln 损失可以用于基于深度学习的神经网络。TSUR [43] 通过利用小波变换和图注意力网络设计来学习更稳定的用户表示，从而缓解货币值的波动性和稀疏性问题。在 [44] 中，提出了一个特征缺失感知的路由与融合网络（MarfNet），以减少训练时缺失特征的影响。最近，[26] 被开发用于预测 KUAISHOU 中的用户 DAU。在 [26] 中，LTV 分布被分为多个子分布，通过分布专家进行训练。由于 mse 损失的限制，[26] 可以证明当货币值的范围限制在较小值时是成功的，因此我们的场景阻碍了其模型的表达能力。大多数现有研究主要集中在通过增强特征表示来提高 LTV 预测的性能，而忽略了将 GW 检测和 LTV 预测整合到一个统一框架中以充分利用它们的有益关系。这些限制激励我们提出 ExpLTV，能够在 LTV 预测和 GW 检测中取得优异的性能。

多任务学习

多任务学习（MTL）是机器学习中广泛使用的训练范式 [34, 47–49]。它旨在捕捉多个任务之间的内在关系，以提高每个任务的性能。监督 MTL 可以分为五大类：基于特征学习 [6, 27]，基于低秩 [1, 46]，基于任务聚类 [3, 36]，基于任务关系学习 [14, 23] 和基于分解的方法 [17, 22]。近年来，许多工作成功地通过在转化率预测（CVR）中利用 MTL 解决了样本选择偏差（SSB）和数据稀疏性（DS）问题。具体来说，SSB 是由训练空间和推理空间的不同分布引起的偏差。[28] 首次提出了一个整个空间多任务模型（ESMM），以消除 CVR 任务中的 SSB 和 DS 问题。在 ESMM 中，引入了两个辅助任务来预测查看后的点击率（CTR）和查看后点击与转化率（CTCVR），而不是直接优化 CVR 任务。受 ESMM 启发，ESM2 [42] 将“展示 → 购买”分解为多个中间行为，如“展示 → 点击 →D(O)行动 → 购买”。基于新的序列行为分解，通过建模多个辅助任务来优化 CVR 预测。同样，SSB 和 DS 问题也存在于游戏鲸鱼检测中。在我们的工作中，我们形成了一个新的序列行为“转换 → 购买 → 游戏鲸鱼”，然后通过多任务学习训练两个分解任务，即购买率预测和游戏鲸鱼与购买率预测。因此，通过研究整个样本和丰富的辅助监督信号，ExpLTV 可以高效地解决 SSB 和 DS 问题。

6 结论

在本文中，我们提出了一种新的多任务框架 ExpLTV 来执行 LTV 预测和游戏鲸鱼检测。通过研究 LTV 预测和游戏鲸鱼检测的有益关系，这两个任务可以相互作用。在游戏鲸鱼检测中，精心设计的基于 DNN 的检测器预计可以精确区分游戏鲸鱼和低消费用户，这可以作为一个门控网络来决定 LTV 专家集合的优化模式。同时，由 LTV 预测器训练的购买率估计器被用作 GW 检测中的辅助任务，以消除 SSB 和 DS 问题。在三个工业数据集上进行的大量实验确认了 ExpLTV 在 LTV 预测和 GW 检测任务上相对于最先进基线的有效性。