可适应数据集搜索排名模型与 owl:sameAs 语句的研究
在数据处理与语义网络的领域中,数据集的搜索排名以及身份关系的处理是至关重要的。下面将分别介绍数据集搜索排名模型的实证分析和 owl:sameAs 语句的相关研究。
数据集搜索排名模型的实证分析
在数据集搜索中,知名数据集虽然可靠,但可能会忽略实体互连的重要机会。而文中讨论的数据集排名技术能极大地促进这一任务,因为它们可以减少搜索链接和发现重要数据集的计算量。
通过对几种排名模型的实证比较,得出了以下结论:
- 适用于人机交互的最佳排名模型 :在与数据集搜索工具进行人机交互时,就归一化折损累积增益(nDCG)而言,基于贝叶斯分类器和 JRip 的排名模型表现最佳。当已知链接集时,贝叶斯分类器更优,其 nDCG 至少能高出 5%;否则,JRip 是最佳选择。
- 可避免社交网络方法的相似度计算 :由于贝叶斯和 JRip 的性能相似,因此可以避免社交网络方法中的相似度计算。
- 带有 JRip 分类器和主题类别的模型 :当需要自动扫描排名时,带有 JRip 分类器和主题类别的模型总是值得考虑的。除了在召回率(recall@k)方面表现更好(达到 90%召回率时,所需数据集减少 13%),该模型的优势还在于它不依赖于所有数据集都有已知链接集的假设,而仅依赖于主题类别的存在,而主题类别通常可以在数据集中找到。
- 不同召回率对应的排名遍历大小 :实验还指出了达到每个期望召回率水平所需遍历的排名大小,这些结果可作为搜索的输入。具体如下表所示:
超级会员免费看
订阅专栏 解锁全文
7530

被折叠的 条评论
为什么被折叠?



