相似连接及扩展:带有序的二元运算符扩展集
1 引言
相似连接在多个场景中逐渐成为重要的数据库操作符,如近重复检测、字符串匹配和数据挖掘支持等。它接收两个关系 T1 和 T2,并返回满足相似谓词的元组对 ⟨t[T1], t[T2]⟩。常见的相似连接类型有范围连接、k 近邻连接和 k 距离连接。
通常,范围连接和 k 近邻连接的结果集基数较大,一般不直接返回给用户,而是作为预处理操作符或中间操作符。在大多数需要相似连接的应用中,用户通常只对少数最相似的对感兴趣,因此 k 距离连接更适合作为查询操作符,因为它只返回 k 个最相似的对。
然而,k 距离连接在获取最终结果之前需要额外的操作,如排序,因此严格来说,它不是传统意义上的连接操作符,而是一种扩展的二元相似操作符,还需要排序。此外,定义 k 距离连接的概念可以推广到支持范围连接和 k 近邻连接,并探索相似连接中未充分利用的条件:相似操作符的否定。
下面通过一个例子来说明。巴西圣保罗州是重要的甘蔗产区,为国家提供乙醇。甘蔗种植的扩张需要监测气候指标,如温度和降水。为此,在一些高产地区安装了少量气候传感器,每个传感器覆盖半径约 10 公里的区域。为了提高监测效果,需要安装新的传感器,但预算只允许安装 k 个新传感器。那么,新传感器应该安装在哪里,既能靠近现有传感器,又不在其覆盖范围内呢?这个场景需要考虑不仅是靠近每个传感器的位置,还有那些在其覆盖范围之外的位置,可以通过使用范围谓词的否定来解决。
本文将相似连接的定义扩展为更广泛的二元相似操作符,称为宽连接。它们被定义为笛卡尔积后接基于顺序的选择,排序在相似性评估过程中完成。这些新操作符旨在计算最相似的对,足够通用以支持范围和 k 近邻谓词及其否定
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



