摘要: 信用卡欺诈会给持卡人和发卡银行带来相当大的成本。当代方法应用基于机器学习的分类器从标记的交易记录中检测欺诈行为。但由于昂贵的标记成本,标记数据通常只占数十亿实际交易的一小部分,这意味着它们不能很好地利用未标记数据中的许多自然特征。因此,我们提出了一种用于欺诈检测的半监督图神经网络。具体来说,我们利用交易记录构建一个时间交易图,该图由时间交易(节点)和它们之间的交互(边)组成。然后,我们通过门控时间注意网络 (GTAN) 在节点之间传递消息以学习交易表示。我们进一步通过交易间的风险传播来建模欺诈模式。在真实交易数据集和两个公开可用的欺诈检测数据集上进行了广泛的实验。结果表明,我们提出的方法,即 GTAN,在三个欺诈检测数据集上优于其他最先进的基线。半监督实验证明,我们的模型仅使用极少量的标记数据就具有出色的欺诈检测性能。
引言
金融欺诈造成的巨大损失引起了学术界、工业界和监管机构的持续关注。例如,如 (AlFalahi and Nobanee 2019; Mat´e et al 2019) 所报道的,金融欺诈检测在支持可持续经济增长方面发挥着关键作用。然而,针对在线支付的欺诈行为,例如非法刷卡,已经给在线支付用户造成了财产损失 (Bhattacharyya et al 2011b)。金融欺诈检测的一个重要研究方向是信用卡欺诈检测,其中信用卡欺诈是指在交易中未经授权使用资金的总称,通常使用信用卡或借记卡 (Bhattacharyya et al 2011a)。图 1 显示了商业系统中部署的典型欺诈检测框架 (Cheng et al 2020a)。检测欺诈的直接方法是匹配每个领域专家可以根据特定的规则(如卡黑名单和预算检查)自动识别可疑交易。然而,犯罪分子也会从预先设计的规则系统的响应中获取漏洞信息,从而使原有系统失效。为了解决失效问题,预测模型被设计为自动检测欺诈模式并产生欺诈风险评分。领域专家随后可以专注于高风险交易。最新技术。在文献中,许多现有的预测模型已被广泛研究以处理欺诈交易(例如,(Patidar,Sharma et al 2011; Fu et al 2016)),可分为两类:(1)基于规则的方法由领域专家直接生成复杂的规则来识别可疑交易。例如,(Seeja and Zareapoor 2014)中的作者提出了一种挖掘频繁欺诈规则的关联规则方法;(2)基于机器学习的方法通过探索大量历史数据来学习静态模型。例如,(Fiore et al 2017) 中的作者基于神经网络提取特征并构建监督分类器来检测欺诈交易。最近,提出了基于图机器学习的方法 (Wang et al 2019a),其中将交易建模为图,并部署了高级图嵌入技术。
图 1:典型的信用卡欺诈检测流程图。发卡机构的检测系统在每笔交易通过账户检查后,会使用在线预测模型对其进行评估。
动机。最先进的欺诈检测技术(Dou et al 2020;Liu et al 2020、2021)可以很好地捕捉交易的时间或基于图的模式,并显著提高信用卡欺诈检测的性能。然而,它们至少有以下三个主要限制之一:(1)忽略包含丰富欺诈模式信息的未标记数据;(2)忽略在实际生产环境中普遍存在的分类属性;(3)在特征工程上需要太多时间,尤其是对于分类特征。
这些促使我们设计一个用于信用卡欺诈检测的半监督图神经网络。具体来说,为了捕捉与时间信息相关的信用卡交易之间的关系,我们利用时间交易图来建模与时间相关的模式。此外,标记交易既费时又费钱。在数十亿笔真实交易中,只有极小一部分(远低于 10%)的交易被标记,其中包含许多未被检测到的欺诈模式。因此,利用未标记数据的自然特征至关重要。在本文中,我们为时间交易图设计了一个门控时间注意网络 (GTAN),它可以提取时间欺诈模式并利用标记和未标记的数据。此外,分类属性在实际应用中无处不在且很有用。因此,有必要通过属性驱动模型来利用有用的信息。在本文中,我们引入了一个属性学习层来预处理交易属性,并添加风险嵌入作为新的分类属性,这可以更好地模拟欺诈模式(例如,属性嵌入学习和风险传播)。
我们的工作贡献总结如下:•我们将信用卡行为建模为时间交易图,并将信用卡欺诈检测问题制定为半监督节点分类任务。
• 我们提出了一种用于信用卡欺诈检测的新型属性驱动时间图神经网络。具体来说,我们提出了一个门控时间注意网络来提取时间和属性信息。我们将属性和风险信息传递到时间交易图上,以利用标记和未标记的数据。
• 在三个数据集上进行的大量实验表明,我们提出的 GTAN 在欺诈检测方面具有优越性。半监督实验结果表明,当利用未标记数据和少量标记数据的丰富信息时,我们提出的方法比基线检测到更多的欺诈交易。
Related Works 相关作品
Credit Card Fraud Detection 信用卡欺诈检测
文献