1.引言
图形的表示是最强大和最通用的数据表示形式之一。这些结构被用来表示不同的数据,从多维实体关系图、web、社交网络、通信网络以及生物和化学化合物。
从广义讲,在现实的领域中,出现了两种类型的图:
数据可能包含许多小图,绘制在标记节点的一个小的基本域上。这种情况的一些例子包括化学和生物化合物。标签对应于化学元素,可以在同一物体或不同物体内重复。节点标签的重复在这种应用中引起了严重的计算挑战,这被称为图同构。根据数据库中正常图形对象的模型,将单个图形对象定义为异常值。因此,异常分数也与整个图形相关联。
数据可以表示为单个大图。例如,网络、社交网络和信息网络。在大多数情况下,如web和社交网络,节点对应于不同的标识符,如统一资源定位符URL、参与者或IP地址。在某些情况下,节点标签也可以重复。在此情况中,异常值分数定义在单个大图的结构元素上(如节点、边、子图)。
也出现了上述场景的许多其他自然变化,例如从更大的网络中提取多个小图。这种情况的一个例子是书目网络,其中出版物可以在较大的书目合著网络上作为一个小图表示。在此情景中,较小的图可以根据它们的链接关系定义为异常值。
在时间设置中,异常值通常对应于web、社交或通信网络等大规模网络的结构变化。结构变化可以用社区、最短路径或其他局部结构特性来建模。时间图代表了异常分析最具挑战性的情况之一,因为离群点的定义有许多不同的方式。
例如,在时态网络中,离群点节点可以是具有异常高的程度、异常连接结构、异常变化程度、异常变化的社区结构、异常变化到其他节点的距离或节点内容与链接结构的异常关系的节点。 几乎有无限数量的不同方式可以定义异常值。 即使在特定的离群点类型(如节点离群点)的上下文中,适当的规则模型也可以根据其程度、邻域集、边权分布等。 因此,即使在非常复杂的数据类型(如图)中定义离群点,也可能带来令人困惑的多种可能性。
在这种情况下,必须从特定应用程序的角度定义和建模异常值,因为不存在统一的定义,特定的应用程序可能提供更好的指导。例如,在垃圾邮件检测应用程序中,节点的程度分布可以提供关于异常值的洞察力。在网络去噪应用程序中,可以使用链接结构来确定离群点链接。这种特定领域的知识可以被认为是一种温和的监督形式,因为它通常是基于先前以数据为中心的经验创建的。