本体与实例匹配技术解析
1. 实例匹配基础与相关技术
在数据处理中,实例匹配是一项重要的任务,它不仅要考虑记录的值,还要考虑其与其他记录的关系。例如,给定两个记录 r1 和 r2,计算它们的相似度 sim(r1, r2) 时,需要考虑 r1 和 r2 上下文中每对记录的相似度值。
有两种典型的技术:
- 集体模型 :与基于记录对独立比较的经典方法不同,该模型通过考虑来自一个或多个源的记录的共享属性值,将这些记录放在一起进行分析。具体来说,查找重复记录的过程被表示为一个无向图,共享相同属性值的记录会被连接在一起。
- 迭代去重 :首先对要分析的记录进行聚类,然后匹配同一聚类中的所有记录以找出重复项。去重过程是迭代的,因为匹配的记录会被连接在一起,当发现新的重复项时,聚类之间的距离会被更新,这可能会导致发现更多的重复项。
2. 实例匹配的优化技术
由于实例匹配过程通常需要在动态环境和开放网络场景中进行,性能问题至关重要。实例匹配的主要关注点之一是找出属于一个或多个本体的个体之间正确映射所需的时间。优化技术主要分为两类:
2.1 减少比较次数
- 阻塞技术 :将属于某个本体的实例划分为同质且相互排斥的子集,即块。通常根据实例在强识别属性(称为阻塞键)上的值进行划分。其假设是,引用同一实体的实例不能被插入到不同的子集中,因此每个实例只需与同一块中的实例进行比较。为了减少假阴性的数量,可以使用不同的阻塞键重复阻塞过程。
- 排序邻域方法