基于潜在语义索引的相似聚类确定方法及地理本体不确定处理
1. 基于潜在语义索引的相似聚类确定
在处理模式匹配问题时,为了使匹配过程具有通用性,需要将待匹配的模式以一种通用的方式进行内部表示。这里采用图数据结构,即模式图,来表示 XML 模式。
1.1 模式准备
将 XML 模式内部表示为模式图,以实现通用的匹配过程。例如,有 DeptDB 和 orgDB 两个模式图,它们都表示了部门、员工、资助以及资助项目等信息。
1.2 模式聚类
使用特定的聚类算法,将每个模式图划分为一组不相交的子图,使得同一聚类中的节点在结构上相似。具体步骤如下:
1. 计算模式图中每对节点之间的结构相似度,基于节点上下文的公共节点数量,即 (|C(v_i) ∩ C(v_j)|)。
2. 根据结构相似度,为每对节点构建链接,包含两个节点及其结构相似度。
3. 生成的链接集合构成一个哈希表,即 Links 哈希表,作为聚类算法的输入。
例如,对 DeptDB 和 orgDB 两个模式图应用聚类算法,得到两个聚类集:CSet1 = {C11, C12} 和 CSet2 = {C21}。
1.3 相似聚类确定
潜在语义索引的目标是检测两个模式图中语义相似的分区(聚类),以减少匹配开销。以下是确定相似聚类的算法步骤:
Algorithm 1. 相似聚类确定
Require: 两个聚类集,CSet1 = {C11, C12, ..., C1n} 和 CSet2 = {C21, C22, ..