高维数据集中的灵活聚合相似性搜索
在当今的数据驱动时代,高效且有效的相似性搜索在众多领域中都发挥着至关重要的作用。无论是空间数据库、多媒体数据库、数据挖掘还是推荐系统,都对相似性搜索有着极高的需求。本文将深入探讨高维数据集中的灵活聚合相似性搜索(FANN)问题,并介绍相关的算法和技术。
1. 背景与问题提出
经典的相似性搜索旨在从数据库中检索出与指定查询对象最相似的一组对象,通常基于单一的排序标准,用相似性函数来表示。然而,近年来,多排序标准的应用逐渐受到关注,通过聚合函数(如 min、max、sum 或 avg)将各个排序结果组合起来,得到对象的最终排序。
聚合最近邻(AggNN)搜索是一种重要的相似性搜索方法,它的目标是从数据库 S 中检索出 k 个与查询对象组 Q 最相似的对象,相似性度量通常定义为检索对象与 Q 中每个查询对象之间距离的聚合(通常是 sum、avg 或 max)。由于其重要性和通用性,AggNN 在多个领域都得到了广泛研究,包括基于内容的图像检索、推荐系统、道路网络等。
但 AggNN 方法存在一定的局限性,它倾向于只选择与 Q 中所有查询对象都相似的对象,当 Q 中对象的特征差异较大时,其性能可能会受到严重限制。为了解决这个问题,Li 等人提出了灵活聚合相似性搜索(FANN)问题,通过仅计算 Q 的子集上的聚合距离,放宽了 AggNN 的限制。具体来说,FANN 旨在检索出 k 个与 Q 的一个大小为 φ|Q| 的子集最相似的对象,其中 0 < φ ≤ 1。当 φ = 1 时,FANN 等价于 AggNN。
与 AggNN 相比,FANN 不仅更适合找到具有语义意义的结果,还允许用户更灵活地制定查询对象组 Q
超级会员免费看
订阅专栏 解锁全文
2076

被折叠的 条评论
为什么被折叠?



