【DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector】

最新推荐文章于 2025-08-05 17:58:34 发布

所谓远行Misnearch

最新推荐文章于 2025-08-05 17:58:34 发布

阅读量957

点赞数 18

CC 4.0 BY-SA版权

分类专栏：图网络文章标签：图异常检测人工智能扩散模型

本文链接：https://blog.youkuaiyun.com/Misnearch/article/details/145775849

DiffGAD

https://openreview.net/forum?id=AhcYq4CnfF

阅读2025

一种基于扩散模型的无监督图异常检测器

Abstract

传统的无监督方法以重构为重点，对未标记数据的编码的潜在表示进行解码，通常无法捕获关键的判别性内容，导致异常检测不理想。DiffGAD的核心是一种全新的潜在空间学习范式，通过精心设计，使用判别内容来指导模型，从而提高模型的熟练程度。利用扩散采样向潜在空间注入判别性内容，并引入内容保存机制，在不同尺度上保留有价值的信息，显著提高了模型在有限时间和空间复杂度下识别异常的熟练程度。在6个大规模数据集上进行了评估，卓越性能。

1 Introduction

第一段介绍图结构，引出graph anomaly detection。

第二段介绍现有研究可分为：半监督学习和无监督学习。并指出半监督学习的挑战。

第三段指出无监督重建策略。利用编码器将图数据映射到潜在空间。实体从这些潜在嵌入中解码，其中那些表现出高重建误差的实体被认为更有可能是异常。但是这些方法在判别能力上存在局限性，导致性能不佳。举例，不正常用户经常故意把自己伪装成正常用户，经常与普通用户在共同属性上表现出显著的重叠。这种行为使得这些异常能够将基于重建的模型的焦点转移到重叠的公共内容上，降低模型辨别真正区别特征的能力，例如用于欺诈检测的交易信息。因此在这样一个平凡的框架下，很难通过重构误差来识别异常实体。如图1(a)所示，潜在空间中的所有数据点是均匀分布的，没有保留足够的判别性内容，导致分布空间重叠。
在这里插入图片描述

上述图1，蓝色、红色分别代表正常节点和异常节点，a,b,c的数据空间分别由不同的方法构造的。a表示是由当前基于重构方法构建的潜在空间，在introduction中介绍到，可以看到数据点都是均匀分布的，没有保留足够的判别性内容，导致正常和异常的分布空间重叠。b表示的是通过隔离得到的discriminative content集成到潜在空间中，学习得到的分布，使得在潜在空间的重叠区域内，能够分离正常分布和异常分布，实现正常和异常样本的区分。(在introduction中第5段介绍)。c表示的是在b基础上通过引入保留的一般内容，扩大正常和异常实体之间的分布差异，从而得到更好的数据表征，(在introduction中第6段介绍)。

第四段，指出基于AE-based method构建的潜在空间，在Books数据集上，倾向于将所有样本表示为同一点，这被巨大的共同内容说误导。而利用VAE based method，面临的一个显著挑战就是，他是在一个受限分布（例如高斯分布）内构建潜在空间的，导致潜在分布均匀。限制了模型的表达力，使得区分异常和正常样本具有挑战性。如何解决的，文章提出引入判别性内容来增强潜在空间学习过程。从扩散模型的强大生成能力中汲取灵感，引入一种基于扩散的检测方法，DiffGAD。

问题是，潜在空间数据点均匀分布，没有足够判别特征，模型表达力不足

具体来讲，从两个方面解决这个问题：

第五段，由于异常的稀疏性，判别性内容很难捕获，然而，共享内容更容易获取。因此，我们隐式的捕获这种判别信息。怎么做的：先训练一个无条件的DM，专注于构建包含判别性和公共元素的特征，称为一般内容。随后，通过一个共同特征的条件反射训练第二个DM，学习包含共同内容的潜在分布，其中共同特征则是通过自适应过滤掉无条件DM重构空间中的潜在异常来构建的。通过将一般内容与这种共性区分开，隔离到了判别内容。然后通过在两个训练好的DM之间应用无分类器制导，将discriminative content集成到潜在空间中。如图1(b)所示，这个过程允许潜在空间在重叠区域内分离正态分布和异常分布，从而实现异常和正常样本的区分。

第五段讲的就是模型原理，第一个DM学习到的是discriminative content + common content = general content，第二个DM学习到的是common content，隔离就得到了潜在的discriminative content

第六段，考虑到基于重建误差的异常检测基本上更符合分类而不是生成，对扩散模型进行了轻微修改，以更好适应这项任务。具体，在采样阶段，不是从高斯分布开始，而是通过添加小时间步长t的噪声对给点样本x引入轻微的破坏，然后降噪以生成重构样本。在整个过程，我们认为一般内容能够在不同的尺度上保留，以进一步增强模型的判别能力。具体来说，较小的t值下的噪声保留了大规模的一般内容，而较大的t值则保留了更局部的一般内容。如图1©所示，通过保留这些内容，构建的潜在空间善于准确的表示数据点，这种增强有效的扩大了正常和异常实体之间的分布差异，产生了一个鲁棒的和判别的潜在空间，从而培养了自信的表征。

贡献：