记录链接方法的研究与实践
1. 记录属性比较
在处理记录时,我们需要对不同记录的属性进行比较,以得出一系列的比较结果。这些结果是通过将一条记录中的特定属性与另一条记录中的相同属性进行对比而得到的。比较结果的定义可以根据需求进行精确设定。例如,我们可以简单地将比较结果定义为属性是否一致;也可以根据属性可能取值,更具体地定义一致结果。
通常,“属性比较”意味着每条记录都记录了相同的属性,并且可以直接进行比较。不过,也可以“比较已知相关的不同属性”,或者使用与记录描述符相关的信息。
2. 聚类与分类
2.1 比较空间与向量
比较空间由比较向量组成,这些向量包含了一对记录字段之间差异的相关信息。向量的特定组件包含的值可以是连续型或离散型。比较向量中连续属性的值始终是实数,而离散属性的值则是一小部分可能值中的一个。
2.2 确定链接状态
下一步是根据比较向量中的信息确定一对记录的链接状态。虽然我们知道每个向量必然对应三种可能的类别之一:链接、非链接和可能链接,但要为比较向量分配这些类别或标签并非易事。若能为比较向量分配这些类别,就可以利用比较向量及其对应的类别构建一个模型,用于预测任何比较向量的类别,该模型可作为记录链接规则集。
2.3 聚类技术的应用
为了解决比较向量的标签问题,我们采用了一种不同的方法。不直接为比较向量分配标签,而是使用聚类技术识别比较向量的簇,然后将这些簇映射到与记录链接状态对应的三个标签。
聚类是一项常见的描述性任务,旨在识别有限的类别或簇来描述数据。这些类别可以是互斥且完备的,也可以是更丰富的表示形式,如层次结
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



