评估对等搜索技术的内容模型
1 引言
近年来,对等搜索网络及其在各种任务中的应用成为研究热点。初始的搜索协议,如Gnutella的泛洪协议,可扩展性不足,促使人们开发新的搜索协议和策略。然而,由于研究团队难以部署和测试大规模的对等网络,许多研究者使用模拟方法来评估新的或现有的搜索技术。
本文主要关注非结构化对等网络,如Gnutella或Kazaa。尽管结构化网络(如CHORD和CAN)有其优势,但非结构化网络因能进行基于内容的搜索而备受关注。在非结构化网络中,节点对本地存储的内容进行搜索,并通过覆盖网络根据路由协议转发搜索消息。
模拟非结构化对等网络需要对网络拓扑和内容进行建模。拓扑模型描述节点的连接方式,内容模型描述不同查询匹配的文档以及文档所在的节点。内容模型同样重要,因为模拟器需要判断查询何时到达有匹配文档的节点。
创建对等网络模拟的内容模型通常有两种方法:
1. 收集真实文档并处理真实查询 :这种方法能准确捕捉真实内容的特征,但难以收集大规模的真实文档。
2. 随机生成内容模型 :虽然可用于大规模网络模拟,但可能无法准确反映真实应用中查询和文档的分布。
本文的目标是开发一种内容模型,既能匹配真实应用中的查询和文档分布,又能扩展用于大规模网络模拟。我们的方法是使用小而真实的数据集测量有用的统计信息,然后生成匹配这些统计信息的大型合成内容模型。
2 Map - Degree - Similarity内容模型
我们的内容模型由两部分组成:地图和统计信息。地图表示查询与文档的匹配关系以及文档与节点的位置
超级会员免费看
订阅专栏 解锁全文
1251

被折叠的 条评论
为什么被折叠?



