图像检索与最长公共子串问题研究
1. 大规模图像检索
在大规模图像检索领域,提出了一种将 STR 与 VLAD 描述符相结合的方法,旨在使用现成的文本搜索引擎对 VLAD 进行索引。借助相同的硬件和文本搜索引擎(如 Lucene),能够与最先进的词袋模型(BoW)进行对比。
实验结果显示,BoW 查询中大量的视觉术语会显著降低倒排列表的效率。尽管可以通过 tf*idf 加权方案减少查询中的视觉术语数量来缓解这一问题,但 VLAD - STR 在效率和有效性方面都显著优于 BoW。效率与有效性的对比图表明,VLAD - STR 能在响应时间减少一个数量级的情况下,达到与 BoW 相同的平均精度均值(mAP);在相同的响应时间内,VLAD - STR 能获得两倍于 BoW 的 mAP。
未来的工作包括改进 VLAD - STR 的重排序阶段。为提高效率,可以按照相关建议在 VLAD 上使用主成分分析(PCA)。此外,在识别场景(如地标识别)中,重排序阶段通常涉及使用随机抽样一致性(RANSAC)进行几何一致性检查,这也可以应用于 VLAD 描述符。同时,鉴于 VLAD 本质上是 Fisher 核的非概率版本且性能相近,测试 STR 方法与 Fisher 核的结合,并与 VLAD - STR 和 BoW 进行比较将是一个有趣的研究方向。
下面是 VLAD 和 BoW 在不同设置下的效率与有效性对比图:
| 方法 | mAP | mSec 每查询 |
| ---- | ---- | ---- |
| VLAD | | |
| BoW | | |
2. 最长公共子串问题
在计算机科学中,