基于机器学习的图异常检测策略研究
1. 随机游走策略
随机游走(Random Walk)这一概念由 Karl Pearson 在 20 世纪 05 年代提出,因其级联性质在多个应用领域广受欢迎。在网络中,随机游走可用于概率搜索、产品推荐、好友推荐以及设计多种预测模型。
随机游走策略的目标是递归遍历图中的每个节点。以 Google Bot 为例,它会随机选择一个页面,然后通过遇到的页面链接移动到另一个页面,这体现了马尔可夫概率理论。该策略具有快速响应、高效恢复和并行计算的优点,但在小型图结构中表现不佳。
随机游走使用通用设计模式来引导随机路径,具体技术包括:
1. 在网格部分中游走;
2. 遇到半径内的节点;
3. 随机生成线来定位节点;
4. 使用步长限制。
与基于密度的计算昂贵方法(如核方法)相比,采用接近图和页面排名算法的组合来检测异常数据点,死链接是该方法的停止标准,但这种情况很少出现。
2. 基于结构的图异常评分
基于结构的静态图异常检测方法强调选择合适的排名指标以实现准确的预测。以下是一些从基线链接分析算法演变而来的方法的比较:
| 算法/方法 | 应用 | 基线链接分析算法 | 现有比较方法 | 使用的指标 | 评估指标 |
| — | — | — | — | — | — |
| OutRank | 入侵检测 | 随机游走 | K - dist (KNN)、LOF | 余弦相似度、RBF 核相似度 | 精度、召回率、误报率、F - 度量 |
| GoutRank | 共同购买网络 | 随机游走 | LOF、SOF、RPLOF、