P2P 网络下的信息检索与语义覆盖网络构建
在当今数字化时代,数字图书馆和海量数字内容的涌现,对数据管理和信息检索提出了新的挑战。P2P 网络作为一种分布式架构,为解决这些问题提供了新的思路。本文将介绍两种相关的技术:一种是用于跨数字图书馆集合的 P2P 信息检索架构,另一种是用于 P2P 数字图书馆的可扩展语义覆盖网络生成方法。
跨数字图书馆集合的 P2P 信息检索架构
在信息检索中,我们采用了一种新的 P2P 架构,它依赖于一种新颖的索引策略,即对稀有术语和术语集进行索引,以限制查询期间的带宽消耗,并实现可扩展和高效的搜索性能。
为了评估该架构的性能,我们进行了实验。首先,我们使用单术语和不同 DFmax 值(200、250、500)的 HDK 索引对集合进行索引,形成基线。然后,对于每个查询,我们比较了原型系统和基线检索到的前 20 个文档,两者的命中列表均使用 TF - IDF 进行排名。我们关注高端排名,因为典型用户通常只对前 20 个结果感兴趣。使用两个指标来比较结果集:一是我们的系统与集中式基线之间的重叠率,二是检索期间传输的平均倒排列表数量。
以下是实验结果的表格:
| 索引方式 | 前 20 重叠率 | 传输的倒排列表数量 |
| — | — | — |
| 单术语(TF - IDF) | 100% | 3052.675 |
| HDK,DFmax = 500 | 94.34% | 232.925 (7.63%) |
| HDK,DFmax = 250 | 85.88% | 96.91 (3.17%) |
| HDK,DFmax = 200 | 83.06% | 75.37 (2.4
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



