联邦知识库中的自动化细粒度信任评估
在联邦知识库中,数据来源广泛且复杂,常常会出现逻辑冲突。为了解决这些冲突并评估数据的可信度,我们可以采用一系列方法。
1. 多数投票法解决冲突
当收集到所有逻辑冲突后,解决这些矛盾的依据是一个假设:集成的数据来源越多,正确断言重复出现的概率就越高。相反,一个断言出错的概率与它所涉及的矛盾数量相关。
基于这个假设,我们对断言基数应用多数投票方案。断言基数由每个断言参与的最小不一致断言集(MISAs)的数量决定。对于包含不同基数断言的MISAs,我们通过将基数较高的断言添加到修复集中来迭代解决冲突。需要注意的是,我们首先解决基数最小的MISAs,以减少错误决策对后续决策的影响。
然而,这种启发式方法可能无法解决所有逻辑冲突,例如那些断言基数相同的MISAs。该方法能生成一个唯一的修复,但不是完整的或全局最优的修复。在包含四个链接开放数据(LOD)数据源的联邦环境中应用此方法,结果显示39.5%的检测到的冲突可以得到解决,精度高达97%。为了得到一个完整的修复以实现一致的知识库,我们可以为所有剩余的矛盾随机选择一个修复。但解决冲突意味着要移除修复集中的所有断言,为了避免信息丢失,我们将使用此方法的结果来计算单个断言、每个数据源及其单个签名元素的信任值或概率。
2. 细粒度信任评估
由于解决不一致性的方法评估显示出高精度,我们将利用收集到的统计证据作为基础,对断言、签名和数据源层面的信任值进行细粒度评估。
2.1 签名准确性
我们根据冲突断言和“正确”断言来确定每个数据源中每个签名元素的签名准确性。这里的“正确”仅指那些个体出现在至少一个其他集成
超级会员免费看
订阅专栏 解锁全文
868

被折叠的 条评论
为什么被折叠?



