相似连接中的扩展与多样化探索
1. 宽连接相关技术
宽连接在处理相似性查询时具有重要作用。在避免不必要元素返回方面,对于¬Rng谓词,由于需要最大上界κf,该解决方案是专门针对宽连接的。当θ = ¬(t[S1] kNN(d, k)t[S2])时,非k近邻宽连接会检索出超出k近邻连接结果的最相似对,但受限于上界κf。其实现与Alg. 1类似,主要有三个关键点不同:
- 第4行的条件被取消;
- 检查第5行的基数是否小于(κf + k);
- 对于每个t1 ∈ T1,TR变为临时结果Ttemp,过程返回结果TR = Ttemp1 ∪ Ttemp2 ∪ … ∪ Ttempn。
在处理一元非范围和非k近邻条件后,会执行(2)式右侧定义的其余操作(投影和选择)。
1.1 多术语谓词
之前介绍了四种基于相似性的比较器:范围、k近邻及其各自的补集。相似性谓词可以表示为θ = τ1 ϕ … ϕ τn的形式,其中ϕ是逻辑连接词,τ是之前定义的四种比较器之一。由于组合相似性术语生成的宽连接实例有些是等价的,所以难以直接枚举不同类型的宽连接实例。不过,多术语谓词以合取(∧)或析取(∨)的方式连接术语τ,每个术语τ可以单独处理,然后分别执行交集和并集操作来组合各个结果。
1.2 宽连接处理优化
相似性宽连接通常使用嵌套循环处理,如Alg. 1,需要执行|T1| ∗ |T2|次距离计算来获得结果集。这种方法计算成本高,但能计算任何类型的宽连接并组合各种数据。为了加速处理,可以采用以下优化方法:
- 索引技术 :对T2中的元素进行索引是文献中常用的有效技术,也可应
超级会员免费看
订阅专栏 解锁全文
1196

被折叠的 条评论
为什么被折叠?



