33、知识图谱丰富:从实体解析到数据融合

知识图谱丰富:从实体解析到数据融合

1. 实体解析引擎Duke

实体解析是知识图谱丰富过程中的关键环节,Duke是一款实现相关过程模型的实体解析引擎。它采用Lucene索引来快速访问实例,并运用诸如阻塞键等阻塞技术进行预过滤。其配置包含了与实体解析相关的属性信息,以及这些属性值的归一化方法,例如将文本转换为小写、清理停用词等。用户还能为每个属性值定义特定的相似度函数,如Levenshtein距离、欧几里得距离等。在比较过程中,会对使用的属性进行加权,并且通过贝叶斯方法结合各个相似度得分,同时考虑某些属性不同对两个实例是否为重复项的影响。

2. 数据融合

当确定了哪些表示指向同一讨论对象后,就可以进行数据融合,将这些表示合并。重复项通常通过owl:sameAs属性进行链接,随后可以合并链接的重复实例的属性值断言。然而,集成新数据源可能会导致不一致性问题,例如功能属性有多个不同的值,或者新引入的属性值断言违反了现有约束。解决这些问题需要应用知识清理过程。

在解决数据融合过程中出现的错误时,检测语法错误和违反形式规范的情况通常比较直接,但对于所有属性值在形式上都正确的其他情况,解决起来可能会比较棘手。主要有两种假设:单真值假设和多真值假设。
- 单真值假设 :认为一个属性只有一个正确的值。可以采用多种策略来选择属性值的“真值”,例如保留出现频率最高的值,对数值属性使用聚合方法(如平均值、最大值、最小值),根据数据源的特征(如可信度、时效性)定义置信阈值,或者采用众包的方式。
- 多真值假设 :当一个属性允许有多个值时,可以使用贝叶斯理论来选择最可能的值。单真值假设的策

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值