点击可以是作弊:反事实的推荐,以减轻点击诱饵的问题。
ABSTRACT
推荐是信息系统中一种普遍的和关键的服务。为了向用户提供个性化的建议,行业参与者采用了机器学习,更具体地说,是基于点击行为数据构建预测模型。这被称为点击率(CTR)预测,它已经成为建立个性化推荐服务的黄金标准。然而,我们认为点击量和用户满意度之间存在着很大的差距——用户通常会被诱人的标题/封面“欺骗”。如果用户发现所点击的项的实际内容令人失望,这将严重损害用户对系统的信任。更糟糕的是,在这些有缺陷的数据上优化CTR模型将会产生马太效应,让看起来有吸引力但实际上低质量的物品更经常被推荐。
在本文中,我们将推荐模型表述为一个反映推荐中的因果因素的因果图,并通过对因果图进行反事实推理来解决点击诱饵的问题。我们想象了一个反事实的世界,每个物品都只有曝光特征(即,用户在做出点击决定之前可以看到的特征)。通过估计一个用户在反事实世界中的点击可能性,我们能够减少暴露特性的直接影响,并消除点击诱饵的问题。在真实数据集上的实验表明,该方法显著提高了CTR模型的点击后满意度。
INTRODUCTION
推荐系统已被越来越多地用于减轻广泛信息系统中用户的信息超载,如电子商务[59],数字流媒体[50]和社交网络[19]。到目前为止,训练推荐模型最公认的方法是优化点击率(CTR),它旨在最大限度地提高用户点击推荐项目的可能性。尽管CTR优化在推荐系统中被广泛应用,但我们认为用户体验可能会因为点击诱饵的问题而无意中受到伤害。也就是说,一些具有吸引人的曝光功能的物品(如标题和封面图片)很容易吸引用户点击[20,57],因此更有可能被推荐,但它们的实际内容与曝光功能不匹配,让用户失望。这样的点击诱饵问题非常常见,特别是在当前的自媒体时代,为平台提供高质量的推荐构成了巨大的障碍(cf。图4为证据)。
为了说明这一点,图1显示了一个例子,用户点击两个推荐的视频,只观察它们的曝光特性。看完视频后,即点击后检查视频内容,用户会给出是喜欢还是不喜欢推荐的评分。𝐼𝑡𝑒𝑚2收到一个不喜欢,因为标题故意误导用户点击它,而𝑖𝑡𝑒𝑚1收到喜欢,因为它的实际内容与标题和封面图像匹配,并且使用户感到满意。这反映了点击和满意度之间可能的(事实上,是显著的)差距——许多点击最终会导致不满意,因为点击在很大程度上取决于用户是否对项目的曝光功能感兴趣。
假设我们可以提取出表明项目质量,甚至与用户满意度一致的良好内容特征,我们能解决这个存在差异的问题吗?不幸的是,答案是否定的。优化目标CTR的原因是:当我们训练一个推荐模型,以最大化带有点击诱饵问题的项目的点击可能性时,该模型将学习强调曝光特征,而忽略来自其他特征的信号,因为吸引人的曝光功能是用户点击的因果原因。这将加剧点击诱饵问题的负面影响,使这些看起来很有吸引力,但低质量的项目越来越频繁地被推荐。
为了解决这个问题,一个简单的解决方案是利用用户[32,51]的点击后反馈,比如喜欢/不喜欢的评分和数字评论。然而,这种显式反馈的数量比点击数据的数量要小得多,因为许多用户不愿在点击后留下任何反馈。在大多数真实数据集中,用户很少有点击后的反馈,这使得很难利用它们来很好地补充大规模的隐式反馈。走向更广泛的应用范围和更广泛的影响,我们认为在仅基于点击反馈的推荐系统中解决点击诱饵问题至关重要,这是非常具有挑战性的,以前从未被研究过。
在这项工作中,我们从一个新的因果推理的角度来处理这个问题:如果我们能区分曝光特征(点击前)和内容特征(点击后)对预测的影响,然后,我们就可以减少导致点击诱饵问题的暴露特征的影响。为此,我们首先构建一个因果图来反映推荐评分中的因果因素(图3(b))。接下来,我们估计了反事实世界中暴露特征对预测得分的直接影响(图3(c)),它想象了如果这个项目只有曝光特征,预测分数会是多少。在推理过程中,我们从事实世界中的预测中删除了这种直接影响,它呈现了所有项目特征的总影响。在图1的示例中,尽管𝑖𝑡𝑒𝑚1和𝑖𝑡𝑒𝑚2在事实世界中获得了相似的分数,𝑖𝑡𝑒𝑚2的最终分数将被很大程度上抑制,因为它的内容功能令人失望,而正是欺骗性的曝光功能增加了事实世界中的预测分数。我们在MMGCN [50]上实例化了这个框架,一种具有代表性的多模态推荐模型,可以同时处理曝光和内容特征。在两个广泛使用的基准测试上进行的广泛实验表明了所提出的框架的优越性,通过只使用点击反馈,大大减少了点击诱饵的问题,并推荐更令人满意的项目。
综上所述,这项工作的贡献有三方面:
我们强调了通过只使用点击数据来减轻点击诱饵问题的重要性,并利用一个新的因果图来制定推荐过程。
我们在推荐中引入了反事实推理,以减轻点击诱饵的问题,并提出了一个反事实推荐框架,可应用于任何以项目特征作为输入的推荐模型。
我们在MMGCN上实现了所提出的框架,并在两个广泛使用的基准测试上进行了广泛的实验,这验证了我们的建议的有效性。
TASK FORMULATION
在本节中,我们制定了推荐者训练和点击诱饵问题,然后是任务评估。
推荐系统训练。推荐系统训练的目标是学习一个评分函数𝑠𝜃,它可以预测用户对项目的偏好。形式上为𝑌𝑢,𝑖=𝑠𝜃(𝑢,𝑖),其中𝑢和𝑖分别表示用户特征和项目特征。具体来说,项目功能𝑖=(𝑒,𝑡)包括曝光功能𝑒和内容功能𝑡,分别由用户在点击之前和之后观察到。𝜃表示通常从历史点击数据中学习到的模型参数,其中,¯𝑌𝑢,𝑖∈{0,1}表示𝑢是否单击𝑖,(¯𝑌𝑢,𝑖=1)点击否则(¯𝑌𝑢,𝑖= 0)。U和I分别指的是用户集和项目集。在这项工作中,我们使用click来表示任何类型的隐式交互,包括购买、观看和下载。形式上,推荐系统训练为:
其中,𝑙(·)表示推荐损失,如交叉熵损失[15]。在推理过程中,经过训练的推荐模型根据𝑌𝑢,𝑖=𝑠𝜃¯(𝑢,𝑖)对所有项目进行排序,并向用户推荐排名最高的项目。
点击诱饵问题。点击诱饵的问题是推荐具有吸引力的曝光功能,但令人失望的内容功能。正式上,项目𝑖具有有吸引力的曝光特征但不满意的内容,项目𝑗有着更少的曝光功能和令人满意的内容,点击诱饵问题会发生如果:
其中𝑖排名高于𝑗。也就是说,具有更有吸引力的曝光特性的项目(如图1中的𝑖𝑡𝑒𝑚2)占据了具有令人满意的内容特性的项目(如图1中的𝑖𝑡𝑒𝑚1)的推荐机会。
因此,推荐模型会推荐许多像𝑖这样的项目,这会损害用户体验,并导致更多的点击,以不喜欢结束。更糟糕的是,它形成了一个恶性循环:反过来,这种点击又加剧了未来推荐系统训练的问题。在这项工作中,我们的目标是通过减轻推理过程中的点击诱饵问题来打破恶性循环,例如,强迫𝑌𝑢,𝑖<𝑌𝑢,𝑗获得更高的用户满意度,而不是获得更高的CTR。此外,我们只基于点击反馈来解决这个问题,即在推荐培训过程中,不访问点击后反馈。
评价。不同于传统的推荐评估,将测试期间的所有点击视为阳性样本[17,50],我们只通过以积极的反馈(即喜欢)[52]结束的点击来评估推荐性能。由于不了解用户的满意度,我们不使用那些缺乏点击后反馈的点击。此外,我们相信,对所选点击的推荐性能能够验证解决点击诱饵问题的有效性。这是因为受点击诱饵问题影响的推荐模型会在部分选定的点击中失败,因为他们更喜欢推荐具有更有吸引力的曝光功能但不令人满意的内容功能的项目。
PRELIMINARY
我们简要介绍了本文中使用的反事实推理[37,38]的概念,并参考读者学习相关作品[35、37、43-45]进行全面了解。
因果关系图。因果图用有向无环图G = {N,E}来描述变量之间的因果关系,其中,N是变量的集合(即节点),而E记录了因果关系(即边)。在因果图中,大写字母和小写字母分别表示随机变量(如𝑋)和随机变量的具体实现(如𝑥)。图2(a)说明了一个表示与个人收入的因果关系的因果图的例子:1)个人收入(𝐼)直接受到受教育程度(𝐸)、年龄(𝐴)和技能(𝑆)的影响;2)通过中介者𝑆间接受到教育的影响。根据图的结构,一组结构方程F [38]可以用来衡量变量如何受到其父母的影响。例如,我们可以通过F={𝑓𝑆(·),𝑓𝐼(·)}来估计其亲本的𝑆和𝐼的值。正式地,
其中,𝐼𝑒,𝑠,𝑎表示满足𝐸=𝑒要求的一个人的收入,𝑆=𝑠和𝐴=𝑎。𝑓𝑆(·)和𝑓𝐼(·)分别对应于变量𝑆和𝐼的结构方程,可以从一组观测值[38]中学习得到。
反事实。反事实推理[39]是一种技术,如果一个处理变量的值与事实世界中的实际值不同,估计后代变量将是什么。如图2(d)所示,反事实推理可以估计乔的收入,如果他是一个没有资格的人的技能。这就是想象中的一种情况:𝐼通过𝐸→𝐼接收𝐸=𝑒,而𝑆通过𝐸→𝑆接收𝐸=𝑒∗,其他变量是固定的。具体来说,𝑒可以代表学士学位,而𝑒∗表示没有资格。反事实推理的关键在于执行外部干预[38]来控制𝑆的价值,这被称为操作操作符。形式上,𝑑𝑜(𝑆=𝑠∗)在结构方程𝑓𝐼中强制用𝑠∗=𝑓𝑆(𝐸=𝑒∗)代替𝑠,获得𝐼𝑒,𝑠∗,𝑎=𝑓𝐼(𝐸=𝑒,𝑆=𝑠∗,𝐴=𝑎)。请注意,𝑑𝑜(𝑆=𝑠∗)并不影响𝑆的上升变量,即𝐸在直接路径𝐸→𝐼上保留了它的真实值𝑒。
因果关系。具有处理变量的一个事件(如:𝐸=𝑒,获得学士学位)对响应变量(如:𝐼)的因果效应衡量的是处理变量从参考值(如:𝑒∗)变为预期值(如:𝑒)时响应变量的变化,这也被称为总效应(TE)。形式上,𝐴=𝑎情况下的𝐸=𝑒的TE定义为:
其中,𝐼𝑒∗,𝑠∗,𝑎为当𝐸=𝑒∗时,𝐼的参考状态,即:干预𝑑𝑜(𝐸=𝑒∗)(见图2(c))。具体地说,通过认为𝑒∗没有资格,𝐼𝑒∗,𝑠∗,𝑎表示如果Joe在𝑎年龄没有资格(即𝐸=𝑒∗)的收入。此外,事件通过以下方式影响响应变量两个变量之间的直接路径(例如,𝐸 → 𝐼)和通过中介的间接路径(例如,𝐸 → 𝑆 → 𝐼)。TE 的一个广泛使用的分解是 TE = NDE + TIE,其中 NDE 和 TIE 分别表示自然直接效应和总间接效应 [37, 45]。特别是,NDE 是在直接路径上只改变处理变量时响应变量的变化,即中介保持不变,仍然接收参考值。例如,在 𝑎 情况下 𝐸 = 𝑒 对 𝑒 的 NDE 是当将 𝐸 从𝑒∗ 变为 𝑒 并强制 𝑆 = 𝑠∗ 时收入 𝐼 的变化。形式上,NDE 的计算依赖于𝑑𝑜 (𝑆 = 𝑠∗),即:
其中𝐼𝑒,𝑠∗,𝑎是反事实世界中的收入(见图2(d))。 因此,在 𝐴 = 𝑎 的情况下,𝐸 = 𝑒 在 𝐼 上的 TIE 可以通过从TE [45] 中减去 NDE 得到:
通常,TIE 是响应变量的变化,当中介从它们的参考值(例如,𝑠∗ = 𝑓𝑆 (𝐸 = 𝑒∗))变为接收期望值的中介(例如,𝑠 = 𝑓𝑆 (𝐸 = 𝑒)),并且直接路径上的处理变量的值保持不变(例如,𝐸 = 𝑒 on 𝐸 → 𝐼)。
COUNTERFACTUAL RECOMMENDATION
在本节中,我们介绍了推荐系统的因果图,然后详细阐述了反事实推理以减轻点击诱饵问题以及提出的反事实推荐 (CR) 框架的设计。
Causal Graph of Recommender Systems
在图 3(a) 中,我们抽象了现有推荐者的因果图其中𝑌、𝑈、𝐼、𝐸和𝑇分别表示预测分数的模型,用户特征、项目特征、曝光特征和内容特征。因此,现有的推荐模型(即𝑠𝜃(·))被抽象为两个结构方程𝑓𝑌(·)和𝑓𝐼(·),公式为:
两个结构方程𝑓𝑌 (·) 和𝑓𝐼(·) 对应于主要的现有模型的模块,评分函数(例如,内积函数)和特征聚合函数(例如,多层感知器(MLP)[15])。特别是,𝑓𝐼(·) 旨在从其曝光和内容特征中提取代表性项目特征,然后将其输入𝑓𝑌 (·) 进行预测。通过最小化历史数据上的推荐损失来学习方程的参数(即𝜃),从而最大化点击项目的可能性(即方程 1)。然而,现有推荐模型的因果图与训练数据的生成过程不匹配。在用户浏览过程中,用户可能会因为被曝光特征吸引而点击商品。从因果关系来看,曝光特征对点击行为有直接影响。由于在模型中忽略了这种直接影响,特征聚合函数不可避免地会强调曝光特征而忽略内容特征(参见图 8 中的经验结果),以实现对带有 clickbait 的点击项的小损失问题。为了弥补这一差距,我们通过将暴露特征𝐸的直接边添加到预测 𝑌 来构建一个新的因果图(图 3(b))。根据新的因果图,推荐模型应该通过直接路径(𝐸 → 𝑌)和间接路径(𝐸 → 𝐼 → 𝑌)来捕捉曝光特征对预测 𝑌 的因果影响。形式上,模型的抽象格式应该是:
换句话说,当我们设计一个通过 CTR 目标对历史点击次数进行优化的推荐模型时,它的评分函数应该直接将曝光特征作为一个额外的输入。
Mitigating Clickbait Issue
虽然新的因果图对推荐评分的因果因素提供了更精确的描述,但基于新因果图的推荐模型仍然存在点击诱饵问题(在等式 2 中)。这是因为响应变量的结果,即𝑌𝑢,𝑖,𝑒,仍然说明了曝光特征的直接影响。因此,具有更具吸引力的曝光特征的项目(例如,图 1 中的项目 2)仍然比具有更令人满意的内容但不那么吸引人的曝光特征的项目得分更高。为了减轻点击诱饵问题,我们执行 CR 推理以减少预测 𝑌𝑢,𝑖,𝑒 中曝光特征的直接影响,其公式为𝑌𝑢,𝑖,𝑒 - NDE。为此,我们需要在响应变量 𝑌 上估计事件 𝐸 = 𝑒 的 NDE。特别是,我们估计在 𝑈 = 𝑢 和 𝑇 = 𝑡∗ 情况下的 NDE. 如第 3 节所述,NDE 表述为:
其中𝑖∗ = 𝑓𝐼 (𝐸 = 𝑒∗,𝑇 = 𝑡∗),𝑒∗ 和 𝑡∗ 分别是 𝐸 和 𝑇 的参考值。𝑓𝑌 (𝑈 = 𝑢, 𝐼 = 𝑖∗, 𝐸 = 𝑒) 表示反事实的结果(见图 3(c)),其中处理变量 𝐸 在直接路径上从 𝑒∗ 更改为 𝑒(即,𝐸 → 𝑌),而在间接路径(即𝐸 → 𝐼 → 𝑌)上仍然是它的参考值。也就是说,它估计如果项目在反事实世界中只有曝光特征,预测分数会是多少,即用户纯粹被曝光特征所吸引的程度。在这个任务中,参考值𝑒∗和𝑡∗被视为没有给出特征的状态。给定用户特征 𝑢,第二项 𝑌𝑢,𝑖∗,𝑒∗(图 3(d))因此对于任何项目都是一个常数,即𝑌𝑢,𝑖∗,𝑒∗ 不会影响用户对项目的排名 .因此,通过从𝑌𝑢,𝑖,𝑒中减去曝光特征的NDE,CR推理的预测分数变为:
直观地说,𝑌𝐶𝑅 减少了暴露特征的 NDE,并依赖于组合项目特征 𝐼 的效果进行推理。具有有吸引力的曝光特征的项目的预测分数,但无聊的内容(例如,图 1 中的𝑖𝑡𝑒𝑚2)在 CR 推理期间将被很大程度上抑制,因为它唯一的吸引力在于曝光特征,而内容特征令人不满意。它将在反事实世界中具有较高的预测分数(即𝑌𝑢,𝑖∗,𝑒)。因此,具有较少吸引力的曝光特征但满足内容特征的项目(例如,图 1 中的𝑖𝑡𝑒𝑚1)将有更高的机会被推荐,因为令人满意的项目特征𝐼会增加 CR 推理中的预测分数,这会迫使𝑠𝜃(𝑢, 𝑖) < 𝑠𝜃 (𝑢, 𝑗) 在等式 2 中。
从因果关系的角度来看,CR 推理从 𝐸 = 𝑒 和 𝑇 = 𝑡 的 TE 中减去 𝐸 = 𝑒 的 NDE。如第 3 节所述,在 𝑈 = 𝑢 的情况下 𝐸 = 𝑒 和 𝑇 = 𝑡 在 𝑌 上的 TE 可以通过𝑌𝑢,𝑖,𝑒 -𝑌𝑢,𝑖∗,𝑒∗ 来计算,其中𝑌𝑢,𝑖∗,𝑒∗ 是参考 情况。显然,CR 推理的预测分数可以表示为𝑌𝐶𝑅 = TE - NDE。
请注意,我们可以在 𝑇 = 𝑡∗ 或 𝑇 = 𝑡 [37] 的情况下估计 𝐸 = 𝑒 在 𝑌 上的 NDE。由于推荐模型通常是非线性的 [38, 45],因此情况的变化可能会导致估计的微小差异。我们选择𝑇 = 𝑡∗的情况来避免曝光特征的泄漏。这是因为,在推荐场景中,内容特征𝑡可能在曝光特征𝑒中包含一些信息。例如,封面图像可能是视频中的一帧,这可能会导致 𝑒 通过中介 𝐼 泄漏。 表 3 中的经验证据证明了这种选择的优势。
CR Framework Design
回想一下,反事实推理的关键在于学习到的结构方程。 为了实现 CR 推理,我们因此需要根据图 3(b) 中提出的因果图设计推荐模型和学习模型参数的算法。
其中𝑌𝑢,𝑖 = 𝑓𝑌 (𝑈 = 𝑢, 𝐼 = 𝑖) 和 𝑌𝑢,𝑒 = 𝑓𝑌 (𝑈 = 𝑢, 𝐸 = 𝑒) 是来自具有不同输入的两个常规模型的预测;𝑓 (·) 是一个融合函数。𝑌𝑢,𝑖和𝑌𝑢,𝑒可以由任何具有用户和项目特征作为输入的推荐模型实例化,例如MMGCN [50]和VBPR [17]。通过这种方式,我们可以通过额外实施融合策略来简单地调整现有推荐模型以适应所提出的因果图,这很容易实现。融合战略。 受先前研究 [4, 35] 的启发,我们采用一种经典的融合策略:乘法(MUL),公式为:
其中𝜎表示sigmoid函数。 它提供非线性为了获得足够的融合策略的表示能力,是必不可少的(见表 5 中的结果)。 请注意,建议的 CR 是一般适用于任何可微分的算术二元运算,我们比较表 5 中的更多策略。
模型训练。 回想一下,CR 推理需要两个预测:𝑌𝑢,𝑖,𝑒 和𝑌𝑢,𝑖∗,𝑒。因此,模型训练的目标是双重的——学习结构方程的参数(即𝑓𝑌(·)和𝑓𝐼(·)),它们可以准确地估计𝑌𝑢,𝑖,𝑒和𝑌𝑢,𝑖∗,𝑒。因此,我们在历史上优化了多任务训练目标点击学习模型参数,公式为:
其中¯𝑌𝑢,𝑖是𝑢和𝑖的标签,𝛼是一个超参数调整两个任务的相对权重。回想一下,𝑖∗ 表示推荐模型不以 𝑖 作为输入,因此 𝑌𝑢,𝑒 可以看作是基于反事实世界中的用户特征 𝑢 和曝光特征 𝑒 的学习预测 𝑌𝑢,𝑖∗,𝑒。
CR 推理。 CR推理需要计算预测𝑌𝑢,𝑖,𝑒=𝑓(𝑌𝑢,𝑖,𝑌𝑢,𝑒)和𝑌𝑢,𝑖∗,𝑒=𝑓(𝑐𝑢,𝑌𝑢,𝑒),其中𝑐𝑢指的是𝑌𝑢的预期常数,𝐼,𝐼 :
这表明对于每个用户,所有项目共享相同的得分𝑐𝑢。由于 𝑌𝑢,𝑖∗,𝑒 中没有给出𝐼的特征,用于预测𝑌𝑢,𝑖的模型为用户𝑢排名具有相同分数𝑐𝑢的项目。 这样,CR推理的结果将由下式计算:
具有吸引人的曝光特征但内容不满意的项目将获得较高的分数𝑌𝑢,𝑒,然后从原始预测中减去𝑌𝑢,𝑖,𝑒,降低此类项目的排名。
总而言之,与传统的推荐模型相比,所提出的 CR 框架展示了三个主要区别:
因果图。 CR 框架下的推荐模型基于一个新的因果图,该因果图说明了曝光特征对预测分数的直接影响。
多任务训练。 除了在现实世界中学习模型(即𝑌𝑢、𝑖、𝑒),我们还训练模型在反事实世界中进行预测(即𝑌𝑢、𝑖∗、𝑒)。
CR 推断。 我们没有根据真实世界的预测提出建议,而是扣除了曝光特征的 NDE 以减轻点击诱饵问题。
RELATED WORK
推荐。 由于现实世界场景中丰富的用户/项目特征[21、22、31],许多方法[7、26]将多模态用户和项目特征纳入推荐[6、17、23、46]。最近,图神经网络 (GNN) [13, 14] 已广泛用于推荐 [12, 48,49],基于 GNN 的多模态模型 MMGCN [50] 由于其模态感知信息传播而取得了可喜的性能 在用户项目图上。然而,现有的作品是通过隐式反馈训练的,完全忽略了点击诱饵问题。 因此,点击次数多但点赞数少的商品会被频繁推荐。
结合各种反馈。 为了缓解点击诱饵问题,许多努力试图通过在推荐中加入更多特征来减少点击和喜欢之间的差距,例如交互上下文 [25]、项目特征 [33] 和各种用户反馈 [53、56]。一般来说,它们分为两类。 首先是负面体验识别[32, 58]。 它执行一个两阶段的管道 [32, 33],首先根据项目特征(例如,新闻质量)和上下文信息(例如,停留时间)识别负面交互,然后仅使用与喜欢的交互作为正样本。第二类考虑直接结合额外的点击后反馈(例如,赞许、收藏和停留时间)来优化推荐模型 [29, 53-55]。 例如,温等人。 [51] 利用“跳过”模式来训练具有三种项目的推荐模型:“点击完成”、“点击跳过”和“非点击”。 然而,这些方法的应用受到上下文信息的可用性和用户额外的点击后反馈的限制。 点击后反馈通常是稀疏的,因此只使用带赞的点击进行训练会丢失很大比例的正样本。
因果推荐。 在信息检索领域,关于因果推理的早期研究 [2, 24] 主要集中在去偏隐式反馈上,例如位置偏差 [9]。对于因果推荐 [5, 8, 60],许多研究人员借助因果推理研究公平性 [34] 或偏差问题,例如记录数据中的曝光偏差 [3, 28] 和流行度偏差 [1] [ 30]。在去偏推荐的因果推理家族中,最流行的方法是反向倾向评分加权 (IPW) [27, 41, 42],它通过重新加权样本将观察到的记录数据变成伪随机试验。一般来说,他们首先估计曝光或流行的倾向,然后用反倾向得分重新加权样本。 但是,当前的因果推荐从未考虑过点击诱饵问题。 他们不区分曝光和内容特征的影响,将用户的点击等隐式反馈视为实际的用户偏好。 因此,先前的研究仍然存在点击诱饵问题,并推荐许多用户会点击但实际上不喜欢的项目。
EXPERIMENTS
Experimental Settings
1)点击后反馈的稀疏性可能会限制评估的规模,但是,我们仍然覆盖了大量用户进行评估。实际上,几乎所有用户都覆盖在两个数据集中;2)具有更有吸引力的曝光特征的项目更容易被收集作为测试样本,无论内容特征如何,因为它们更有可能被点击。 然而,在没有外部干预的情况下构建一个完全无偏的测试集是不现实的,这非常昂贵,因此留给未来的工作。 数据集的统计数据见表 1。
Tiktok. 它是 ICME Challenge 20193 中发布的多模态微视频数据集,其中微视频具有字幕、音频和视频的特征。组织者已经提取了多模式项目特征以进行公平比较。 我们将字幕视为曝光特征,其余的则视为内容特征。此外,点赞、喜欢或完成的动作被用作点击后的正反馈(即喜欢),仅用于构建测试集进行评估。
对于每个用户,我们随机选择 10% 以喜欢结尾的点击组成一个测试集,剩下的作为训练集。此外,从训练集中随机选择10%的点击作为验证集。我们利用验证集来调整超参数并为测试阶段选择最佳模型。 对于每次点击,我们随机选择一个用户从未交互过的项目作为训练的负样本。
评估指标。 我们遵循所有排名的评估协议对每个用户的所有项目进行排名,除了被点击的训练中使用的[18, 47],并报告推荐通过:Precision@K (P@K)、Recall@K (R@K) 和NDCG@K (N@K) 与 𝐾 = {10, 20},其中较高的值表示更好的性能[50]。
比较方法 我们将提出的 CR 与各种可能缓解点击诱饵问题的推荐方法。 为一个公平比较,所有方法都应用于 MMGCN [50],即最先进的多模态推荐模型和捕获模态感知的高阶用户-项目关系。 具体来说,CR 与以下基线进行比较:
NT。继[50]之后,MMGCN通过正常训练(NT)策略进行训练,其中使用所有项目特征并使用点击数据优化MMGCN。 我们保持相同的超参数[50] 中的设置,包括:模型由BPR 损失 [40]; 学习率设置为 0.001,大小为潜在特征是 64。
CFT。基于暴露特征容易诱发点击诱饵问题的分析,我们只使用内容特征进行训练(CFT)。该模型还使用所有点击数据进行训练。
IPW。Liang等人[27,28]试图通过IPW [41]的因果推理来减少点击产生的暴露偏差。为了进行公平的比较,我们遵循Liang等人的想法,在MMGCN在[27]中实现了曝光和点击模型,因为它使用了多模态项目特征,因此可以获得更好的性能。
此外,考虑到点击后的反馈可以表示实际的用户满意度,我们将CR与三个基线进行了比较:
CT。该方法是在清洁训练(CT)设置中进行的,在该设置中,只有以赞结束的点击才被视为训练MMGCN的阳性样本。
NR。Wen等人采用[51]的点击后反馈,并将“点击跳过”项目作为负样本。我们将他们的负反馈重加权(NR)应用到MMGCN中。详细地说,NR在训练过程中调整了两个负样本的权重,包括“点击-跳过”项目和“不点击”项目。在[51]之后,将额外的超参数𝜆𝑝、𝑛,即两种负样本的比例,调整为{0、0.2、0.4、0.6、0.8、1.0}。
RR。对于每个用户,我们提出了一种策略,在推理过程中对NT推荐的前20个项目进行重新排序(RR)。对于每个项目,最终的排名是通过NT中的排名和基于项目的相似/点击比率的排名来计算的。赞/点击比率是从整个数据集计算出来的。
我们省略了潜在的测试推荐模型,如VBPR [17],因为之前的工作[50]已经验证了MMGCN优于这些多模态推荐模型的性能。
参数设置。我们严格遵循MMGCN [50]的原始实现,包括代码、参数初始化和超参数调优。多任务损失函数中的额外权重𝛼在{0、0.25、0.5、0.75、1、2、3、4、5}中进行了调整。𝛼对性能的影响在图5中可视化,当𝛼为1或2时,模型获得了最好的性能,显示了我们提出的多任务训练的有效性。如表3所示,我们估计了𝑇=𝑡∗情况下𝑌的NDE,因为其合理性和更好的性能。此外,对模型选择进行早期停止,即如果验证集上的召回率@10在连续10个时期内没有增加,则停止训练。我们会多次训练所有的模型,并报告其平均性能。更多的细节可以在代码6中找到。
6.2 Performance Comparison
总体性能比较总结如表2所示。从表格中,我们有以下观察结果:
排除培训。在大多数情况下,CFT的表现比NT更差,这是由于丢弃了暴露特性。该结果否决了简单地丢弃暴露特征以减轻点击诱饵问题的选择,这对于用户偏好预测是必不可少的。此外,IPW在Toktok和广告上的性能较差,这表明点击诱饵问题可能不能通过阻止推荐更多点击的项目来解决。此外,该结果表明了准确的倾向估计对减轻偏差的重要性,这是使用IPW处理由复杂多变模式的特征引起的偏差的关键障碍。
点击后反馈。RR优于NT,NT根据赞/点击率对NT的推荐进行重新排名。它验证了利用点击后反馈来缓解点击诱饵问题并满足用户需求的有效性。然而,将点击后反馈纳入模型训练的CT和NR在Tiktok上的表现比NT差,例如CT的NDCG@10在Tiktok上下降了11.71%。我们将较差的性能归因于点击后反馈的稀疏性,当模型在少量的交互上进行训练时,这损害了模型的泛化。这是有道理的,因为在Tiktok上结束点赞的点击量仅占39.44%,远低于广告公司(69.47%)。此外,我们假设的原因是不准确的因果图(图3(a)),缺乏从暴露特征到预测的直接边缘,进一步详见表4。
CR推理。在所有情况下,CR在所有基线上都实现了显著的性能提高。特别是,CR的性能优于NT w.r.t.在克和广告率分别为11.11%和7.47%。结果验证了所提出的CR的有效性,这是由于新的因果图和反事实推理造成的。特别是,CR也优于RR,后者额外考虑了点击后的反馈。这进一步说明了CR可以消除暴露特征对预测的直接影响,以减轻点击诱饵的问题。因此,CR显著地有助于推荐更令人满意的项目,这可以提高用户的参与度,并产生更大的经济效益。
6.2.1 所提出的因果图的影响。为了阐明性能增益,我们进一步研究了一种变体,即CR-TE,它通过𝐸=𝑒和𝑇=𝑡的TE进行推理,即它与NT的区别是对所提出的因果图进行训练。表4显示了它们在使用𝐾= 20时的性能。从表中,我们观察到CR-TE优于NT,这证明了将来自暴露特征的直接边缘合并到预测评分的合理性。它验证了快捷方式的存在,其中曝光功能可以直接导致点击。此外,CR推理进一步优于CR-TE,表明减少暴露特征的直接影响确实减轻了点击诱饵的问题,并导致更好的推荐和更满意的推荐。
6.3 In-depth Analysis
然后以Adressa上的CR为例,进一步研究CR的有效性。
6.3.1可视化的建议,w.r.t.喜欢单击比率。回想一下,带有点击诱饵问题的推荐模型倾向于推荐项目,即使它们的喜欢/点击率很低。因此,我们比较了CR和NT的建议,以探讨CR是否可以减少对损害用户体验的高风险项目的推荐。具体来说,我们收集推荐给每个用户的排名最高的项目,并计算每个项目被推荐的频率。图6概述了CR和NT的推荐频率,其中的项目根据它们的喜欢/点击率直观地分成五组,以便更好地可视化。
从图中可以看出,与NT相比,1) CR推荐更少的喜欢/点击比率≤0.6;2)喜欢/点击率高的项目,特别是在[0.8,1]中。结果表明,CR满足用户的潜力更高,这是由于对暴露特征的影响的适当建模。
6.3.2。数据集清洁性的影响。然后,我们研究了点击数据的“清洁度”是如何影响CR的有效性的。具体来说,我们比较了CR和NT与以不喜欢结尾的不同点击率的过滤数据集。我们按喜欢/点击比例对项目按降序排序,并按一定比例丢弃排名最高的项目,其中丢弃比例越大,导致数据集的点击比例越高。图7显示了丢弃比例从0(原始数据集)变化到0.8时的性能。从图7中,我们有以下发现:1) CR在所有病例中都优于NT,这进一步验证了CR的有效性。2)当丢弃比例小于0.4时,性能提高接近,在丢弃比例较大时显著增加。结果表明,对于点击更多的推荐场景,减轻点击诱饵问题更为重要。
6.3.3 融合策略的效果。回想一下,任何可微的算术二进制运算都可以作为CR [35]中的融合策略。为了阐明适当的融合策略的发展,我们研究了它的基本性质,如线性和边界。因此,除了MUL策略外,我们还进一步评估了一种具有线性融合的普通SUM策略、具有s型函数的SUM策略和以𝑡𝑎𝑛ℎ(·)作为激活函数的SUM/MUL策略。正式地,
与MUL融合策略类似,我们也分别估计了sum线性、ss型、SUM-tanh和MUL-tanh的CR推断。测试结果如下:
在CR推理过程中,具有不同激活功能的SUM策略是等价的。然而,它们在训练过程中不同地捕捉到了暴露特征的直接影响。因此,推荐的结果在理论上是不同的。
不同融合策略的性能见表5。由此可见,我们可以发现:由于1)非线性融合策略具有更好的表示能力,因此明显优于线性融合策略;2) SUM-tanh比其他融合策略的性能最好,包括所提出的mul-s型融合策略。这表明,具有适当边界的融合函数可以进一步提高CR的性能,在未来将CR推理应用于其他数据集时,多种融合策略值得研究。
6.3.4 对合成数据的CR评价。为了进一步评价CR在减轻暴露特征的直接影响方面的有效性,我们对合成数据进行了实验。具体来说,在推理过程中,我们通过“中毒”项目的暴露特征,为测试数据中的每个正用户项对构建一个假项目。虚假物品的内容特征与真实物品相同,而其曝光特征是从喜欢/点击率为< 0.5的项目中随机选择的。这些喜欢/点击率较低的项目更有可能是有点击诱饵问题的项目。他们的曝光特征很容易吸引,但具有欺骗性,例如,“找到不明飞行物!".此外,虚假物品的曝光特征和内容特征之间存在很大的差异,这模拟了带有点击诱饵问题的物品,即内容特征与曝光特征不一致。因此,如果推荐模型能很好地缓解点击诱饵的问题,那么假项目的排名应该要低于配对的真实项目。
假冒物品的等级越低,就表明它更好地消除了暴露特征的直接影响。因此,我们对每个用户的所有测试真实项和伪项目进行排序,并定义rank_gap =𝑟𝑎𝑛𝑘𝑓𝑎𝑘𝑒−𝑟𝑎𝑛𝑘𝑟𝑒𝑎𝑙来衡量推荐模型的性能,其中,𝑟𝑎𝑛𝑘𝑓𝑎𝑘𝑒和𝑟𝑎𝑛𝑘𝑟𝑒𝑎𝑙分别是成对的假货和真实物品的排名。rank_gap值越大,差距越大,性能就越好。最后,我们计算了测试数据中每个三组<用户、真实项目、假项目>的rank_gap。
如图8(a)所示,首先对rank_gap值进行分组,然后按组进行计数。从图中,我们可以观察到CR生成的rank_gap值大于NT,CR的分布比NT的分布更平坦,说明CR对虚假项目的排名得分较低。这是因为CR有效地减少了欺骗性暴露特征的直接影响。此外,我们从测试数据中随机抽取了5k个三胞胎样本,并分别比较了图8(b).中由CR和NT生成的rank_gap值。从图中可以看出,1)大多数点都在对角线以上,说明CR的rank_gap通常大于NT;2)CR生成的rank_gap值覆盖的范围更广,从0到5k不等。研究结果表明,CR可以很好地区分真实的和假冒的物品,这进一步证明了CR在减轻点击诱饵问题上的有效性。
7 CONCLUSION AND FUTURE WORK
点击诱饵问题广泛存在于工业推荐系统中。为了消除其影响,我们提出了一个新的推荐框架CR,它解释了暴露特征、内容特征和预测之间的因果关系。通过进行反事实推理,我们估计了暴露特征对预测的直接影响,并将其从推荐评分中删除。虽然我们在一个特定的推荐模型MMGCN上实例化了CR,但它是与模型无关的,只需要微小的调整(几行代码)就可以采用到其他模型中,使CR能够在不同的推荐场景和模型中广泛使用。通过减轻点击诱饵的问题,他们可以提高用户的满意度和参与度。
这项工作开辟了一个新的研究方向——将反事实推理纳入推荐系统。沿着这个方向,有许多有趣的想法值得我们去探索。1)考虑到推理相对于因果图的巨大好处,未来必须构建一个更全面的因果图来推荐具有更细粒度的因果关系。2)这项工作证明了反事实推理在减轻点击诱饵问题方面的有效性,并激发了对点击数据中其他内在偏差和问题的进一步探索,如选择偏差[36]和位置偏差[24]。3)更广泛地说,这项工作表明了对推荐的因果推理的重要性。它打开了赋予推荐系统使用更多因果推理技术的大门,如干预和反事实推理。
ACKNOWLEDGMENTS
本研究/项目由海洋-next联合实验室、国家自然科学基金项目(U19A2079)和国家重点研发计划项目(2020AAA0106000)资助。