重新审视聚类列表:高效度量索引的新探索
1. 引言
在模式识别和数据挖掘领域,相似性搜索是一个关键问题。其核心在于根据给定的查询条件和距离函数,从数据库中找出符合要求的项目集合,且不依赖于对象的内部结构。为了实现快速的相似性搜索,人们设计了各种接近性索引。
然而,大多数索引在处理大规模数据库时存在局限性,尤其是当数据处于高维空间时,这种局限性更为明显,这就是所谓的“维度诅咒”(CoD)。在高维数据下,即使是精心设计的索引,其性能也可能不如顺序扫描。
常见的索引包括 AESA、LAESA、Fixed Queries Array(FQA)等。AESA 虽然在计算距离方面具有渐近最优性能,但由于其预处理时间和内存需求都与数据库大小呈二次方关系,因此仅适用于小型数据集。LAESA 是一种基于线性数量枢轴的索引,可以在查询速度和索引大小之间进行权衡。FQA 则是一种紧凑的索引,能够在一定程度上实现速度和空间的平衡。
列表聚类(List of Clusters,LC)是一种高效的相似性搜索索引,在高维数据下表现出色。但它的构建时间为二次方,这限制了其在大型数据库中的应用。为了解决这个问题,本文提出了一种新的索引——反向最近邻列表聚类(Reverse Nearest Neighbor List of Clusters,Rev - LC)。
2. 相关概念
2.1 度量空间与接近性搜索
度量空间是一个由集合 U 和距离函数 d 组成的对 (U, d),距离函数 d 满足严格正性、对称性和三角不等式。数据库 S 是 U 的有限子集。接近性搜索主要包括两种操作:
- k 最近邻查询 <
超级会员免费看
订阅专栏 解锁全文
55

被折叠的 条评论
为什么被折叠?



