基于机器学习的图异常检测策略研究
在当今的数据驱动时代,图数据结构广泛应用于社交网络、生物网络、交通网络等众多领域。如何高效准确地检测图数据中的异常,成为了数据科学领域的重要研究方向。本文将深入探讨图异常检测的相关策略,包括随机游走、基于结构和社区的异常评分方法以及图压缩策略,并分析当前面临的挑战。
随机游走/盲目游走
随机游走的概念由 Karl Pearson 在 20 世纪初提出,因其级联性质在多个应用领域广受欢迎。在网络中,随机游走可用于概率搜索、产品推荐、好友推荐等。其目标是递归地遍历图中的每个节点,例如 Google Bot 随机选择一个页面,然后通过页面链接移动到另一个页面,这体现了马尔可夫概率理论。
随机游走具有快速功能、高效恢复和并行计算的优点,但在小图结构中性能较差。它采用通用设计模式引导随机路径,如在网格部分行走、遇到半径内的节点等。与基于密度的计算昂贵方法相比,结合邻近图和 PageRank 算法可检测异常数据点,死链接是该方法的停止准则,但很少出现。
基于结构的图异常评分:标记/排名策略
在静态图中,基于结构的异常检测方法强调选择合适的排名指标以提高预测准确性。常见的挑战包括:
1. 仅使用传统基于密度的技术识别小群体异常效率低下。
2. 具有相同数量离群点和正常点的聚类难以区分。
3. 邻域图构建在离群点检测中较为繁琐。
4. 大多数现有技术需要用户定义邻域参数。
5. 区分点异常和集体异常是一个问题。
为解决这些问题,采用马尔可夫链模型为每个对象分配离群点分数,适用于静态二分图和加权无向图结构。但该方法也存在一些局限性,如某些图的预期覆盖时
超级会员免费看
订阅专栏 解锁全文
2376

被折叠的 条评论
为什么被折叠?



