20、社交互联场景爬虫BDS的使用体验

社交互联场景爬虫BDS的使用体验

在社交网络分析中,对于社交互联场景(SIS)的研究至关重要。以往的研究多聚焦于单一社交网络的分析,而对于SIS的研究相对较少。本文将探讨适用于SIS的爬虫策略,分析现有策略的不足,并提出一种新的爬虫策略——桥驱动搜索(BDS),最后通过实验验证BDS的性能。

现有爬虫策略分析

在单一社交网络中,已经提出了多种爬虫策略,其中比较流行的有广度优先搜索(BFS)、随机游走(RW)和MH算法。
- BFS :实现经典的广度优先搜索访问,倾向于探索种子节点的局部邻域。如果该邻域内桥梁节点(连接不同社交网络的节点)较少或不存在,那么爬行样本将无法覆盖多个社交网络。此外,BFS容易偏向于权力用户,导致某些网络参数出现偏差,例如高估爬行部分节点的平均度。
- RW :在当前节点的邻居中随机选择下一个要访问的节点。由于桥梁节点在社交网络中的比例较低,RW选择桥梁节点作为下一个访问节点的概率也很低,因此爬行样本难以覆盖多个社交网络。同样,RW也倾向于权力用户,会导致网络参数出现偏差。
- MH :旨在不偏向权力用户和高度数节点。在单一社交网络中,MH在估计节点平均度方面表现出色。然而,由于桥梁节点平均度数较高,MH会对桥梁节点进行惩罚,导致其爬行样本无法覆盖SIS中的多个社交网络。

综上所述,现有的BFS、RW和MH策略在SIS场景中都存在明显不足,需要设计一种专门适用于SIS的爬虫策略。

BDS爬虫策略设计

为了克服现有策略的不足,我们设计了BDS爬虫策略。该策略基于对BFS、R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值