社交互联场景爬虫BDS的使用体验
在社交网络分析中,对于社交互联场景(SIS)的研究至关重要。以往的研究多聚焦于单一社交网络的分析,而对于SIS的研究相对较少。本文将探讨适用于SIS的爬虫策略,分析现有策略的不足,并提出一种新的爬虫策略——桥驱动搜索(BDS),最后通过实验验证BDS的性能。
现有爬虫策略分析
在单一社交网络中,已经提出了多种爬虫策略,其中比较流行的有广度优先搜索(BFS)、随机游走(RW)和MH算法。
- BFS :实现经典的广度优先搜索访问,倾向于探索种子节点的局部邻域。如果该邻域内桥梁节点(连接不同社交网络的节点)较少或不存在,那么爬行样本将无法覆盖多个社交网络。此外,BFS容易偏向于权力用户,导致某些网络参数出现偏差,例如高估爬行部分节点的平均度。
- RW :在当前节点的邻居中随机选择下一个要访问的节点。由于桥梁节点在社交网络中的比例较低,RW选择桥梁节点作为下一个访问节点的概率也很低,因此爬行样本难以覆盖多个社交网络。同样,RW也倾向于权力用户,会导致网络参数出现偏差。
- MH :旨在不偏向权力用户和高度数节点。在单一社交网络中,MH在估计节点平均度方面表现出色。然而,由于桥梁节点平均度数较高,MH会对桥梁节点进行惩罚,导致其爬行样本无法覆盖SIS中的多个社交网络。
综上所述,现有的BFS、RW和MH策略在SIS场景中都存在明显不足,需要设计一种专门适用于SIS的爬虫策略。
BDS爬虫策略设计
为了克服现有策略的不足,我们设计了BDS爬虫策略。该策略基于对BFS、R