结合索引与缓存的高效相似性搜索

原创于 2025-10-25 03:29:14 发布 · 568 阅读

CC 4.0 BY-SA版权

文章标签：

通过结合索引和缓存策略实现高效相似性搜索

尼维斯·R·布里萨博阿1, 安娜·塞尔迪尼亚‐佩纳1, 维罗尼卡·希尔‐科斯塔3, 毛里西奥·马林2, 和奥斯卡·佩德雷拉1
1数据库实验室，信息学院，拉科鲁尼亚大学，西班牙 {brisaboa, acerdeira, opedreira}@udc.es
2 CITIAPS，DIINF，圣地亚哥大学，智利 mauricio.marin@usach.cl
3 DCC，圣路易斯国立大学，阿根廷 gvcosta@unsl.edu.ar

摘要

在大规模搜索引擎中，一个关键问题是如何高效应对流入查询流量的突发高峰。度量空间领域的研究已从创建缓存的角度来解决该问题，这些缓存可提供信息，以期能够快速精确/近似地回答查询，而无需进一步处理索引。然而，这种方法的一个问题是，如果缓存无法提供答案，则到该时刻为止所计算的距离将被浪费，搜索必须继续通过索引结构进行。本文提出了一种具有双重作用的索引结构：在同一结构中同时充当缓存和索引。这样，如果我们无法为查询提供快速的近似答案，则到该时刻为止所计算的距离可用于查询索引。我们展示了对该结构所获得性能的实验评估。

引言

搜索引擎的新应用需要使用比纯文本更复杂的数据。度量空间已被证明在对大量复杂对象进行相似性搜索时具有实用性和有效性。在这种情况下，查询是与数据库中存储的对象类型相同的对象，例如，目标是检索与给定查询最相似的对象 k。任意两个对象之间的相似性通过一种与应用相关的距离函数计算，该计算通常开销较大。数据库利用预计算距离建立索引，以减少搜索过程中的比较次数。

大规模搜索引擎中的一个关键问题是如何高效应对流入查询流量的突发高峰。通常，大型搜索引擎由一个或多个前端服务（FS）机器和一组 P 处理器组成，形成一个分布式内存系统。前端服务负责接收查询并将查询发送给处理器以计算结果。每个处理器被视为一个搜索节点，负责整个对象集合的一部分。通过将索引数据结构分布到 P 个处理器上来支持高效搜索，并通过将查询发送到多个处理器来执行并行查询处理。对于承受高查询流量的系统而言，关键在于减少计算次数的同时保持高效的吞吐量（单位时间内完全解决的查询数量）。

在度量空间相似性搜索领域的研究主要集中在优化单个查询的执行。在多查询场景中，查询到达率可能会剧烈变化，查询内容也可能以不可预测的方式动态偏斜，因此一个关键问题是：我们如何使当前查询能够利用之前的查询结果，从而以近似结果的形式得到回答？其基本假设是，相比常规答案，近似答案可以用更少的计算周期完成，从而使服务器能够应对流入查询流量的急剧增加。

缓存查询结果是一种可行的解决方案，已提出诸如 QCache 和 RCache [1] 等策略。然而，这些策略未能降低整体计算周期，因为它们将缓存与索引独立处理。也就是说，无法从缓存中受益的 incoming 查询会被重定向到度量索引，从而需要从头开始计算查询答案。我们的实验表明，在先前的策略中，访问缓存的开销甚至可能比直接通过索引本身计算查询答案更高（或相当）。

为了说明上述结论，我们在第4节描述的设置下进行了实验。我们使用查询日志测试了以下三种情况：（1）每个查询首先发送到 RCache[1]，如果缓存无法生成前‐k 个结果，则使用 M‐树[2] 索引来处理该查询；（2）每个查询首先发送到 QCache[1]（RCache 的一种变体），如果缓存无法生成前‐k 个结果，则将查询发送到 M‐树索引；（3）每个查询直接通过 M‐树索引进行处理。在每种情况下，我们计算了处理完整查询日志所需的运行时间和距离计算次数。图1显示了归一化到1的结果。缓存大小设置为1%。

示意图0 )
(a) 运行时间

示意图1 )
(b) 距离计算
图1. 不同缓存策略实现的性能

查询数量的3%和6%，分别产生的缓存命中率为15%、22%和33%。结果表明，使用缓存时的运行时间和距离计算是搜索代价的重要组成部分。

本文提出了一种策略，该策略将缓存嵌入索引结构中，以避免在缓存内容无法产生良好近似结果时浪费计算周期。在这种情况下，利用此前对该查询的计算继续遍历索引，以尽快生成近似查询结果。

本文的其余部分组织如下。第2节回顾了关于相似性搜索和缓存的相关工作。在第3节中，我们提出了一种结合索引和缓存策略的新索引结构。第4节展示了对我们的结构进行实验评估所获得的结果。最后，第5节总结了我们工作的主要结论。

结合索引与缓存

在度量空间搜索的缓存技术中，以往方案存在的一个问题是在距离计算方面处理缓存的开销。如果缓存成功提供了答案，则用于处理缓存的距离计算节省了使用索引结构解决查询所需的距离计算。然而，如果缓存失败，则这些用于处理缓存的距离计算就被浪费了，并增加了整体搜索代价。

在本节中，我们提出了一种簇列表的变体，该变体将索引和缓存策略结合到同一结构中，因此，如果缓存无法为查询提供精确或近似答案，用于处理缓存的距离计算也不会浪费，因为这些计算无论如何都是通过索引解决查询所必需的。

索引结构与构建

索引结构是列表集群（LC），其中簇中心不是从数据库中的对象中选择，而是从搜索时接收到的查询中选择。因此，在系统开始接收查询之前不会构建索引。这意味着最初的几次查询的搜索成本会更高。为了避免在实际场景中出现这种情况，我们可以在过程初期使用一个附加索引，当新的索引结构稳定后将其删除。

由于查询具有动态特性，无法遵循 LC 的中心选择策略。我们使用 SSS [7] 来适应查询的动态特性，并确保簇中心在空间中分布良好。因此，如果新查询 q 到现有簇中心的距离大于 M × α，则 q 将成为新的簇中心，并相应地重构索引结构。对应于新簇中心 q 的簇可能是空的，前提是集合中没有任何对象比过去用作簇中心的任何其他查询更接近 q。在这种情况下，该簇将被移除。与 LC 类似，每个对象仅属于其最近簇中心形成的簇。

当选择新查询作为簇中心时，重新组织索引结构在距离计算方面会产生开销。然而，SSS 保证支点数量最终会趋于稳定，因此该重组的开销将在所有已处理的查询中摊销。

选择系统接收到的查询中的簇中心的原因是，这样可以更好地覆盖由查询定义的空间部分，而该空间不一定与数据库中对象所定义的空间相同。这将有利于范围搜索和 kNN 搜索算法，因为簇中心会更接近未来的查询。

此外，我们在每个簇中保留额外的信息。与仅存储簇中心、属于该簇的对象列表和覆盖半径不同，我们还保留了从中心到簇内每个对象的距离，如[14]中所提出的。通过这种方式，簇中心在搜索过程中也起到了支点的作用。如[9]所示，对于每个对象而言，最近的支点是最有希望的，因此将簇中心作为该簇内每个对象的支点应是最有效的选择。此外，保留从簇中心到簇内各对象的距离，还可以对与某个支点足够相似的查询返回近似结果。

索引作为近似搜索的缓存

这种索引结构的主要动机在于，它既可以作为经典索引使用，也可以作为缓存使用，当系统接收到大量查询时，可能有助于快速提供查询的近似答案。当向系统提交一个新查询时，第一步是将查询对象与簇中心进行比较。由于这些对象是历史查询，它们反映了由查询定义的空间，因此新查询很可能等于或类似于某些簇中心。用作簇中心的历史查询数量越多，新查询与某个用作簇中心的历史查询足够相似的可能性就越大。

如果对于某个 ci，d(q, ci) = 0 成立，则仅使用 Ci 中的信息即可提取出 q 的近似答案。这可能会遗漏一些对象，但无需进行额外的距离计算。

新查询恰好等于用作簇中心的先前查询的情况极少发生。然而，如果 q 足够接近某个簇中心 ci，仍然可以提供一个近似结果。请注意，通过使用 SSS 选择簇中心，所有簇中心之间的距离至少为 M × α。因此，每个簇的覆盖半径最多为 M×α / 2。我们认为 q 与簇中心 ci 足够相似的条件是：

$$ d(q, ci) \leq \frac{M \times \alpha}{2} \times \rho $$

其中 0 ≤ ρ ≤ 1。因此，ρ 决定了查询对象 q 与先前查询的接近程度，以返回近似答案。由于索引结构 I 不依赖于 ρ，该参数可以在搜索阶段根据系统处理需求轻松调整。

搜索

算法1展示了用于范围搜索的算法的伪代码。给定 R(q, r)，且 I 为索引结构，搜索过程如下：

在第一步中，将查询对象 q 与 I 中每个簇的簇中心进行比较（第2和第3行）。该比较用于判断 q 是否将成为一个新的簇中心。如果对于所有支点 pi，d(q, pi) > M×α 成立，则 q 将成为一个新的簇中心（第4和第5行）。在这种情况下，必须重构索引结构，以便将距离该新支点更近的对象分配到其对应的簇中。过程 AddNewCluster(I, q) 执行此重构操作。

请注意，这种重组无需将 q 与数据库中的所有对象进行比较即可完成，因为每个对象 x 到其簇中心的距离为 d(q, x) 提供了下界，因此可能没有必要计算 d(q, x)。

在将查询对象 q 与每个簇中心进行比较后，我们可以利用该信息和索引结构作为缓存（第6‐8行）。首先，如果对于某个 pi，有 d(q, ci) = 0，则可以使用该簇中包含的信息来回答查询

算法1：范围搜索 (I, q, r)

数据: I: 索引结构; q: 查询对象; r: 搜索半径;

2  for i = 1 to I.size do
3      d[i] = d(q, pi);
4      if ∀i, d[i] ≥ M × α then
5          AddNewCluster(I, q);
6      else
7          if ∃pi / d[i] ≤ (M×α / 2) × ρ then
8              ApproximateRangeSearch(I.ci, q, r);
9          else
10             for i = 1 to I.size do
11                 if d[i] − cri ≤ r then
12                     foreach xj ∈ I.Ci do
13                         if |d[i] − d(ci, xj)| ≤ r then
14                             if d(q, xj) < r then
15                                 Result ← Result ∪ {xj}

算法1 带有近似搜索的范围搜索伪代码

由 ci 形成的簇。即使没有发生精确匹配，索引结构的信息也能使我们提供一个近似答案。如果对于某个 ci，d(q, ci) ≤ (M×α / 2) × ρ 成立，我们也将根据由 ci 形成的簇中包含的信息构建对 q 的回答。在这种情况下，我们将搜索限制在 ci 的簇内。由于索引存储了簇中所有对象的距离 d(x, ci)，我们可以利用这些距离来获得 d(q, x) 的下界，并在不与 q 进行比较的情况下丢弃某些对象 x。

如果无法提供近似答案，则通过结合簇和枢轴准则来利用索引中的其余信息，继续搜索以排除簇中的对象（第9‐15行）。注意，此时我们已经获得了查询对象 q 到各簇中心的距离。那些不与查询球体 (q, r) 相交的簇将直接从结果中剔除。对于不能完全剔除的簇，我们利用簇中心到簇内对象 x 的距离，计算出 d 的下界 (q, x)。在这些下界不足以直接排除 x 的情况下，最终仍需计算距离 d(q, x)。

使用该算法时，如果该结构无法为查询提供近似答案（从而表现为缓存），则到目前为止计算的距离不会被浪费，因为这些距离正是使用索引进行搜索所必需的。与将缓存作为独立于索引的组件的方案类似，在所提出的算法中，也可以根据系统的处理需求来启用或禁用缓存的使用。实际上，参数 ρ 允许我们控制缓存使用的程度（从而影响近似答案的质量）。

尽管我们仅解释了范围搜索的算法，但将其扩展到 kNN 搜索的情况是直接的。给定一个新查询 q，其 k 最近邻列表可以用与其比较的第一个对象进行初始化。
由 ci 形成的簇。即使没有发生精确匹配，索引结构的信息也能使我们提供一个近似答案。如果对于某个 ci，d(q, ci) ≤ (M×α / 2) × ρ 成立，我们也将根据由 ci 形成的簇中包含的信息构建对 q 的回答。在这种情况下，我们将搜索限制在 ci 的簇内。由于索引存储了簇中所有对象的距离 d(x, ci)，我们可以利用这些距离来获得 d(q, x) 的下界，并在不与 q 进行比较的情况下丢弃某些对象 x。

如果无法提供近似答案，则通过结合簇和枢轴准则来利用索引中的其余信息，继续搜索以排除簇中的对象（第9‐15行）。注意，此时我们已经获得了查询对象 q 到各簇中心的距离。那些不与查询球体 (q, r) 相交的簇将直接从结果中剔除。对于不能完全剔除的簇，我们利用簇中心到簇内对象 x 的距离，计算出 d 的下界 (q, x)。在这些下界不足以直接排除 x 的情况下，最终仍需计算距离 d(q, x)。

尽管我们仅解释了范围搜索的算法，但将其扩展到 kNN 搜索的情况是直接的。给定一个新查询 q，其 k 最近邻列表可以用与其比较的第一个对象进行初始化。然后，搜索作为范围搜索进行，但在必要时在每一步更新范围，即根据 q 到其当前 kth 最近邻的距离。

实验结果

在本节中，我们提供了关于我们的结构在不同方面的实验结果。我们使用度量空间库[15]实现了该结构。我们采用了该库中的两个集合，这两个集合在现有技术中被广泛使用，分别是 English，一个包含 69,069 个单词的词典，以及 Nasa，一个由 40,151 张图像组成的集合，每张图像用维度为 20 的特征向量表示。对于 English 使用编辑距离，对于 Nasa 使用欧几里得距离。

对于每个集合，90% 的对象被用作数据库，其余 10% 被用作基础查询。查询集由基础查询创建，以反映真实搜索引擎中典型的人类行为。为此，基础查询按照从网络搜索引擎获得的真实查询集所得到的相同分布进行复制。通过这种方式，查询具有与真实系统中相似的偏斜分布。根据此流程，我们为每个集合生成了包含 10,000 个查询的文件。英语的查询范围设置为 2，而 NASA 则使用一个能为每次查询返回集合平均 0.01% 对象的范围。

在第一组实验中，我们分析了当系统接收到前几个查询时，结构性能的变化情况。为此，我们在索引初始为空的情况下，对每个集合运行了 10,000 次查询。为了专注于解决查询和更新索引的成本，在这些实验中使用缓存时将参数 ρ 设置为 0，这意味着只有当新查询与历史查询完全相同时才使用缓存。图3 和图4 显示了每个集合在使用和不使用算法中的缓存部分（分别记为 RWC 和 RWOC）回答范围查询所需的距离计算次数、在使用和不使用缓存的情况下更新索引所需的距离计算次数（分别记为 UWC 和 UWOC），以及这两项之和（TWOC 和 TWC）。结果以系统接收到的查询数量（从 0 到 10,000）表示。从结果可以看出，在所有情况下，随着索引获取的信息增多，解决查询的成本逐渐降低。对于需要较少中心数的 NASA 数据集，我们可以看到随着历史查询数量的增加，更新索引的成本迅速下降。

我们进行了实验，分析在同时将该结构用作缓存和索引时的性能，以便在可能的情况下提供近似但快速的答案。为了将更新索引的成本排除在结果之外，以免干扰这些实验的目的，我们对每个集合运行了两次 10,000 次查询：第一次允许索引建立并稳定（此过程已在之前的实验中分析），第二次则用于测量索引发生极少变化时的搜索性能。图5 显示了针对参数 ρ 的不同取值，解决范围查询和 4‐NN 查询所需的平均距离计算次数。结果仅反映第二阶段的性能。该图显示

图3. 英语中范围查询的搜索和更新成本

图4. NASA 中范围查询的搜索和更新成本

对于每个 ρ 的取值，使用缓存（英语‐TWC 和 NASA‐TWC）与不使用缓存（英语‐TWOC 和 NASA‐TWOC）解决查询的成本。随着 ρ 的增大，仅利用其最近簇的信息来解决查询的要求降低，从而减少了距离计算。

)
(a) 范围搜索

)
(b) 4‐NN
图5. 使用该结构作为缓存和索引时，进行范围搜索和 4‐NN 搜索的代价

即使对于最小的 ρ 值，与不使用缓存的版本相比，性能提升也非常显著。

结论

我们提出了一种用于相似性搜索的度量结构，该结构可作为缓存或经典度量索引使用。与原始的簇列表结构的一个主要区别在于，簇中心是从历史查询中选取的，而不是从集合中的对象中选取，并且选取时采用一种确保其在空间中分布均匀的准则。此外，每个簇都存储了从其中心到其各个对象的距离。对于一个新查询，如果它与我们保留在索引中的某个历史查询相同或非常相似，则提供一个近似结果。如果我们无法提供近似结果，则利用计算历史查询距离的过程来继续在索引中进行搜索，并剪枝部分搜索空间。

该度量结构的主要优势在于它能够同时充当缓存和索引。由于簇中心是历史查询，将每个查询与这些簇中心进行比较，可以提供快速但近似的查询结果。即使第一步无法返回近似答案，那些到目前为止执行的距离计算并非无用功，因为无论如何这些计算都是查询索引所必需的。因此，与以往方案的主要区别在于，缓存与索引结构相结合，无需额外的处理。

未来的工作仍有一些方向有待探索。我们正在研究替换策略，以动态更新索引中作为簇中心保留的历史查询。如果系统接收到的查询分布在特定且较短的时间段内非常偏斜，这一点可能尤为重要。