可适应数据集搜索的排名模型分析与LDP - DL语言研究
一、数据集排名相关研究
在当今数据爆炸的时代,数据互联的需求日益增长。Web of Data(WoD)虽然发展迅速,但不同数据集之间的实体链接仍有待加强,更多的实体链接能提升知识库的内在价值,推动创新应用的发展。
实体链接任务主要包含三个步骤:
1. 选择包含相关实体的其他数据集。
2. 检查这些数据集的内容,推断实体关系。
3. 通过添加新的RDF语句,使这些关系明确化。
目前,超过70%的数据集最多与其他两个数据集的实体有链接,且大多仅与DBpedia、Geonames、W3C和Quitter等流行数据集相连。这主要有两个原因:
1. 可用数据集的质量差异大,开发者倾向于选择更可靠、全面的数据集。
2. 选择相关数据集是一项容易出错、艰巨且耗时的任务,现有的搜索技术未被广泛采用。
选择最相关的数据集可视为一个排名问题,即根据在数据集 $d_i$ 中找到与目标数据集 $d_t$ 相关实体的可能性对其进行排名。在WoD环境中,有手动和自动两种使用场景,不同场景适用不同的排名算法。
以下是三种不同的数据集排名策略:
|策略|描述|
| ---- | ---- |
|相似性排名|两个数据集描述越相似,其内容越可能相似。|
|使用已知数据集链接和元数据学习链接规则|这是推荐系统常用的协同过滤方法,假设相似群体有相同行为,但相似性标准会影响这种直觉判断。|
|识别相关枢纽|寻找高度引用的数据集,这些数据集在特定信息领域成为权威。若能确定数据集所属的信息领域,枢纽可作为寻找实体链接的良好机会。|
超级会员免费看
订阅专栏 解锁全文
1195

被折叠的 条评论
为什么被折叠?



