多数据源中介模式的Top-K生成技术解析
在数据集成领域,探索多数据源中介模式是一个重要的研究方向。下面将详细介绍相关的核心技术,包括边的得分策略、Top-K排名算法、概念相似度计算以及性能评估等内容。
1. 边的得分策略
在处理可能的边时,边的得分需要反映使用或不使用该边的决策与连接的两个概念之间的相似度水平的契合程度。
- 不使用边的情况 :若连接概念 $C_a$ 和 $C_b$ 的边 $x$ 不被使用,会施加一个惩罚,这个惩罚就是该策略的得分,等于 $C_a$ 和 $C_b$ 之间的相似度,即 $score_x = S(C_a, C_b)$。显然,两个概念的相似度越高,不合并它们的惩罚(得分)就越高。
- 使用边的情况 :若边 $x$ 被包含,则施加的惩罚等于两个概念之间的相异度,即 $score_x = 1 - S(C_a, C_b)$,为简化表示,用 $D(C_a, C_b)$ 代表 $1 - S(C_a, C_b)$。同样,两个概念的差异越大,合并它们的惩罚就越高。
2. 分配的得分函数定义
设 $X = [X_n…X_i…X_0]$ 为一个分配,$X_i$ 是 $X$ 中的任意单个位。设 $C_i$ 和 $C’ i$ 是由可能的边 $X_i$ 连接的两个概念,得分函数定义如下:
[
score(X) = \frac{1}{n} \sum {i=1}^{n} f(X_i)
]
[
f(X_i) =
\begin{cases}
min(S(C_i, C’_i),