高效非度量空间库的构建与优化
在数据搜索领域,查询结果可以是精确的,即返回完整结果;也可以是近似的,例如仅找出部分最近邻。精确的近邻搜索和范围搜索受到了广泛关注,但在许多应用中,精确搜索并非必不可少。因为相似性的概念,如两张图像之间的相似性,并没有严格定义。采用精确检索方法并不一定能从人类视角找到与查询最相似的图像。同样,即使搜索方法不能产生精确和/或完整的结果,k - NN分类器也可能表现良好。
1. 相关工作
- 精确搜索方法的局限性 :在度量空间中,有大量关于精确搜索方法的文献。然而,精确方法在高维空间中的价值有限,会出现“空空间”和“测度集中”现象。随着维度增加,所有最近邻搜索方法都会退化为顺序搜索,这就是所谓的“维度诅咒”。而允许返回不精确答案的方法受此诅咒的影响较小。
- 近似最近邻查询方法
- 随机投影与局部敏感哈希(LSH) :为回答近似最近邻查询,有人提出使用随机投影,LSH是该思想最著名的实现之一。LSH索引使用多个哈希函数,使得相近对象哈希到相同值的概率足够高,而远对象的概率较小。LSH在Lp空间(p ∈(0, 2])中效果最佳,也有针对任意度量空间和对称非度量距离的扩展。其性能取决于参数选择,可根据数据集分布进行调整。
- 早期终止策略 :大多数精确搜索方法可通过应用早期终止策略转换为近似方法。例如,Zezula等人证明这种方法对M - 树效果良好。一种高效策略依赖于距离分布的密度估计,Chávez和Navarro在枢轴方法的背景下讨论了基于密度