分布式P2P网络中信息检索的高效索引策略
1. P2P系统分类
P2P系统主要分为非结构化和结构化两类:
- 非结构化P2P系统 :
- 节点在网络中广播搜索请求,适用于搜索流行且高度复制的内容。
- 但搜索稀有物品时性能不佳,因为会在网络中发送大量消息。
- 更高级的方法通过随机游走或特殊路由索引来限制查询消息的数量,这些索引维护相邻节点的内容模型以确定查询的路由路径。
- 结构化P2P系统 :
- 也称为结构化覆盖网络或分布式哈希表(DHT)。
- 每个节点负责公共标识符空间中的一部分标识符id,多个节点可能负责同一标识符空间以提高可靠性。
- 所有节点使用覆盖路由协议转发它们不负责的消息。
- 大多数DHT维护大小为O(log(N))的路由表(N为网络中节点的数量),可以在O(log(N))的覆盖跳数内将消息路由到负责目标id的节点。
- 与非结构化网络相比,结构化P2P覆盖网络在搜索时的带宽消耗要低得多,但仅限于精确匹配的键搜索。
在信息检索领域,设计P2P搜索引擎有两种架构概念:
|架构概念|描述|
| ---- | ---- |
|非结构化/分层P2P网络中的本地索引|将文档分布在节点网络上,每个节点维护其本地文档集合的索引。查询在非结构化网络中广播给所有节点,会产生大量消息。为限制查询流量,查询在节点和文档两个级别进行回答:先定位可能包含相关文档集合的节点组,然后将查询提交给这些节点,节点查询其本地索引并返回答案,最后将答案合并以生成单个排名的命中列表。|
|结构化P2P网
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



