27、实时多媒体集合探索系统RTExp：技术解析与应用实践-优快云博客

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/150622016

实时多媒体集合探索系统RTExp：技术解析与应用实践

1. 引言

随着智能设备和移动应用的飞速发展，普通用户正不断改变传统的相似性搜索模式。多媒体集合持续增长，其数据通常是无结构的，传统的索引和查询方法难以适用。因此，基于相似性搜索范式的新技术应运而生。

相似性搜索通过基于内容的多媒体对象比较来实现，典型的查询方式为查询示例搜索，即用户指定一个初始对象和额外条件进行查询。然而，这种有针对性的搜索方式在满足用户实际期望方面不够直观。在某些场景下，用户并不明确自己要搜索的内容，只能通过迭代浏览或探索数据库来找到目标对象，这就是间接搜索。近年来，多媒体探索系统成为研究热点，旨在实现更高效的浏览方式。

但目前提出的系统在处理大规模数据库时存在问题，它们未能解决为任意大的集合保证最差查询性能这一关键挑战。对于多媒体探索而言，流畅即时的操作体验至关重要，因此底层例程需在近实时内运行。

2. 相关工作与动机

多媒体探索系统结合了浏览多媒体集合和近似相似性搜索两个主要因素。近似相似性搜索通过交换查询有效性（精度）和查询效率（速度）来实现，用户可在查询时使用各种近似参数进行调整。

近似搜索场景的分类揭示了不同的原理，其中RCES（减少比较和提前终止）和增量相似性搜索是相关的技术。增量相似性搜索利用树索引结构，为更有前景的节点分配更高优先级，在处理队列中最有前景的节点保证比结果集中“最差”节点更差的值时停止搜索。该技术在空间数据库和度量索引中得到了应用。

然而，这些系统需要为多媒体探索的不同目的进行调整。多媒体探索过程的关键要求是在集合中实现流畅导航，因此提供部分相似性查询的索引必须保证实时响应。

2.1 移动设备中的多媒体探索

移动设备正逐渐取代传统计算机和笔记本，用户可以随时随地搜索、浏览和下载多媒体数据。但小屏幕和有限的控制选项给移动多媒体应用带来了新挑战。

目前的多媒体探索技术虽应用了索引支持和近似搜索来提高效率，但很少考虑在大型多媒体数据集和移动环境下的实时响应。对于多媒体探索系统来说，保证实时响应比保持高检索精度更为关键。用户可以根据需求控制响应时间和精度的权衡，例如在随意探索未知集合时，用户更倾向于快速响应；而在搜索特定对象时，用户愿意等待更精确的结果。

2.2 实时相似性查询

在介绍系统之前，我们先了解一下在有限时间内执行相似性查询以实现近实时结果的背景知识。最常见的查询是k最近邻（kNN）查询，它返回与查询对象最相似的k个对象。为了限制响应时间，我们定义了kNN(t)查询，即在受限时间t内，通过相似性索引访问数据库对象获得的最多k个最相似对象。这些查询以批次形式出现，形成由用户与系统交互触发的查询流。

3. 实现RTExp系统

RTExp（实时探索）系统采用了分层架构，包括表示层、逻辑层、数据层和一个额外的保证层间通信和数据流动的层。以下是各层的特点：
1. 表示层 ：提供直观舒适的图形用户界面，将用户在可视化探索空间中的操作转换为探索操作序列和相应的查询流。
2. 逻辑层 ：主要完成两项任务。一是将用户的探索操作转换为查询流，二是将数据层的部分或最终结果返回给用户。具体步骤如下：
- 决定是终止当前正在运行的查询流，还是创建一个新的查询流（查询流生成器）。
- 调度器使用优先队列根据用户设置调度和控制所有请求。
- 调度器将查询流传递给执行器，结果处理器决定哪些查询结果将传播到表示层。
3. 数据层 ：包含多媒体集合和专用的相似性索引。我们评估和比较了几种度量访问方法（MAMs），未来还计划引入非度量访问方法。影响实时能力和系统性能的因素有：
- 不同的查询执行计划：对于计算成本低的相似性查询，直接执行；对于计算成本高的查询，采用近似方法。例如，在M树中，对于低成本查询使用自上而下的搜索策略，对于高成本查询采用自下而上的方法（快速遍历到叶节点，然后增强初始结果）。
- 即时查询评估：在以下情况下可以利用即时查询的优势：
- 优先考虑快速结果而不是相关性。
- 终止过时的查询。
- 当同时查询数量快速增加时。

以下是RTExp系统各层关系的mermaid流程图：

graph LR
    A[表示层] -->|用户操作转换为查询流| B[逻辑层]
    B -->|查询流执行请求| C[数据层]
    C -->|部分/最终结果| B
    B -->|结果传播| A

4. 探索操作与用户界面

为了提高用户体验，系统实现了两个重要的探索操作：缩放和平移。这两个操作直观且被广大互联网用户熟知，适用于基本的探索操作。

4.1 缩放

当用户对多媒体集合中的特定对象进行缩放操作时，会揭示之前不可见的对象。缩放操作包括以下步骤：
1. 确定目标缩放点。
2. 找到最接近目标缩放点的对象。
3. 找到最接近边界的对象。

缩放操作分为两种情况：
- 放大：发起一个相似性查询，查询对象为最接近缩放目标点的对象。
- 缩小：查询流由多个相似性查询组成，查询对象为最接近边界矩形的对象。

4.2 平移

平移操作可使探索在特定方向上推进。平移操作包含以下参数：
1. 平移方向和幅度。
2. 沿着平移方向最接近可视化探索空间边界的对象。
3. 移出新可视化探索空间边界的对象。

平移操作会发起一个查询流，查询对象为沿着可视化探索空间边界最接近的对象。

4.3 RTExp移动设备表示层

为了验证探索系统的可行性，我们实现了一个面向iPad平板电脑的RTExp原型。底部的滑块控制允许用户调整探索过程，向左滑动可获得更精确但可能更慢的结果，向右滑动则返回更快但不一定相关的结果。

5. 实验评估

我们对RTExp系统的性能进行了实验评估，比较了M树（MT）、PM树（PMT）、枢轴表（PT）和托勒密枢轴表（PPT）在两个多媒体集合上的性能。

在CoPhIR数据集（包含100万个图像，距离函数成本低）中，PM树表现最佳，枢轴表的性能甚至不如顺序扫描。而在ALOI数据库（包含70000个图像，使用昂贵的SQFD距离函数）中，枢轴表更适用。

简单的即时查询终止实现可能不够，例如在ALOI上最快的索引在100ms后才能达到合理结果。因此，未来需要设计更具体的即时查询终止方法。

基于之前的实验结果，我们将即时查询终止应用于模拟的真实用户探索场景。结果表明，即时查询终止的主要优点是单个探索操作的执行时间持续较低，从而使探索过程更加流畅。

我们还研究了探索操作的精度误差，通过比较终止查询和非终止查询的结果，使用Jaccard距离计算精度误差。实验结论是，在所有查询具有相同评估时间的情况下，误差与非终止查询的时间相关。因此，为了提高精度，需要进行查询分析和修改查询评估方法。

以下是不同索引在CoPhIR和ALOI数据集上的kNN查询误差对比表格：
| 数据集 | 索引 | 误差表现 |
| ---- | ---- | ---- |
| CoPhIR | PMT(30) | 相对较好 |
| CoPhIR | PT(30) | 较差 |
| CoPhIR | Seq | 一般 |
| CoPhIR | MT | 一般 |
| CoPhIR | PPT(30) | 一般 |
| ALOI | PMT(30) | 一般 |
| ALOI | PT(30) | 较好 |
| ALOI | Seq | 一般 |
| ALOI | MT | 一般 |
| ALOI | PPT(30) | 一般 |

6. 挑战与未来工作

在开发RTExp系统原型的过程中，我们遇到了一些问题，并提出了相应的解决方案和未来的研究方向。

连续查询评估 ：为了实现连续性能，我们计划采用发布/订阅数据传递方式。当用户执行操作时，可视化探索空间将不断更新部分或最终结果，同时系统在后台评估查询流。
多媒体集合可视化 ：目前我们使用基于多维缩放和模拟退火的物理模型进行可视化，但未来计划采用更复杂的解决方案。

此外，未来我们将致力于在保持评估时间不变或更短的情况下提高返回结果的精度，例如通过数据注释等方法。

7. 结论

我们提出了实时多媒体探索系统RTExp，该系统具有可扩展的多层架构，应用了实时相似性探索查询，并提供了直观的用户界面。通过开发面向移动设备的功能原型并评估系统性能，验证了该多媒体探索系统的可行性。

实时多媒体集合探索系统RTExp：技术解析与应用实践

8. 系统优势总结

RTExp系统在多媒体探索领域展现出了多方面的显著优势，以下为您详细梳理：
- 实时响应能力 ：通过即时查询评估和合理的查询执行计划，系统能够在近实时内响应相似性查询，为用户提供流畅的探索体验。例如，在模拟的真实用户探索场景中，即时查询终止使得单个探索操作的执行时间持续较低，避免了不必要的延迟。
- 用户可调节性 ：用户可以根据自身需求，通过RTExp移动设备表示层的滑块控制，灵活调整探索过程，在精度和速度之间进行权衡。这种灵活性满足了不同用户在不同场景下的需求。
- 广泛的索引适用性 ：系统评估和比较了多种度量访问方法（MAMs），并计划引入非度量访问方法。在不同的多媒体数据集上，能够根据数据特点选择合适的索引，如在CoPhIR数据集上PM树表现出色，而在ALOI数据库中枢轴表更适用。

以下是RTExp系统优势的对比表格：
| 优势 | 具体表现 |
| ---- | ---- |
| 实时响应能力 | 即时查询评估，近实时响应查询，保证探索过程流畅 |
| 用户可调节性 | 用户可通过滑块控制在精度和速度间权衡 |
| 广泛的索引适用性 | 支持多种MAMs，可根据数据集特点选择合适索引 |

9. 技术实现细节分析

为了更深入地理解RTExp系统的工作原理，我们对其关键技术实现细节进行分析。

9.1 查询流生成与调度

逻辑层的查询流生成器负责根据用户的探索操作决定是终止当前查询流还是创建新的查询流。调度器则使用优先队列，依据用户设置对所有请求进行调度和控制。以下是查询流生成与调度的mermaid流程图：

graph LR
    A[用户探索操作] -->|判断| B{是否终止当前查询流}
    B -->|是| C[终止当前查询流]
    B -->|否| D[创建新查询流]
    C -->|加入队列| E[优先队列]
    D -->|加入队列| E
    E -->|调度执行| F[查询流执行]

9.2 相似性查询执行

数据层的相似性查询执行根据查询的计算成本采用不同的策略。对于计算成本低的查询，直接执行；对于计算成本高的查询，采用近似方法。例如在M树中，低成本查询使用自上而下的搜索策略，高成本查询采用自下而上的方法。具体步骤如下：
1. 判断查询成本 ：根据查询的复杂度和所需计算资源，判断查询是计算成本低还是高。
2. 选择执行策略 ：
- 若为低成本查询，采用自上而下的搜索策略，从根节点开始逐步向下搜索。
- 若为高成本查询，采用自下而上的方法，先快速遍历到叶节点，然后增强初始结果。