8、可适应数据集搜索的排名模型分析与LDP - DL语言研究

可适应数据集搜索的排名模型分析与LDP - DL语言研究

一、数据集排名相关研究

在当今数据爆炸的时代,数据互联的需求日益增长。Web of Data(WoD)虽然发展迅速,但不同数据集之间的实体链接仍有待加强,更多的实体链接能提升知识库的内在价值,推动创新应用的发展。

实体链接任务主要包含三个步骤:
1. 选择包含相关实体的其他数据集。
2. 检查这些数据集的内容,推断实体关系。
3. 通过添加新的RDF语句,使这些关系明确化。

目前,超过70%的数据集最多与其他两个数据集的实体有链接,且大多仅与DBpedia、Geonames、W3C和Quitter等流行数据集相连。这主要有两个原因:
1. 可用数据集的质量差异大,开发者倾向于选择更可靠、全面的数据集。
2. 选择相关数据集是一项容易出错、艰巨且耗时的任务,现有的搜索技术未被广泛采用。

选择最相关的数据集可视为一个排名问题,即根据在数据集 $d_i$ 中找到与目标数据集 $d_t$ 相关实体的可能性对其进行排名。在WoD环境中,有手动和自动两种使用场景,不同场景适用不同的排名算法。

以下是三种不同的数据集排名策略:
|策略|描述|
| ---- | ---- |
|相似性排名|两个数据集描述越相似,其内容越可能相似。|
|使用已知数据集链接和元数据学习链接规则|这是推荐系统常用的协同过滤方法,假设相似群体有相同行为,但相似性标准会影响这种直觉判断。|
|识别相关枢纽|寻找高度引用的数据集,这些数据集在特定信息领域成为权威。若能确定数据集所属的信息领域,枢纽可作为寻找实体链接的良好机会。|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值