P2PIR与覆盖数组验证:技术解析与实验洞察
1. P2PIR基准概述
P2PIR(Peer-to-Peer Information Retrieval,对等网络信息检索)基准需要满足特定要求。它要具备IR测试集的常见特性,即包含文档、查询和相关性判断,同时还需规定文档和查询在对等节点间的分布方式。
在研究多个P2PIR基准时发现,自然内容分布往往缺乏查询和相关性判断。这种情况下,查询可能从集合文档中生成,或者从其他来源获取,并且由于缺乏相关性判断,性能通常与集中式设置进行比较。
内容复制是P2PIR基准测试的一个重要方面,但几乎所有研究都未充分考虑这一维度。不同基准的比较总结如下表:
| 基准 | 数据集合 | 评估指标 | 复制情况 | 查询可用性 | 相关性判断可用性 |
| — | — | — | — | — | — |
| Metadata URL | TREC | Recall / Precision | - | + | + |
| Metadata Author | TREC | Recall | - | + | + |
| CiteSeer | Recall | - | - | - |
| Reuters | Recall | - | - | - |
| Clustering | Wikipedia | Recall | - | - | - |
| Classification | CiteSeer | Recall / Precision | + | - | - |
为解决这些不足,提出了P2PIRB框架,用于基于上述参数构建具体基准。在介绍该框架前,先了解文档的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



