SLAM BOW词袋重定位

最新推荐文章于 2025-10-17 14:34:52 发布

原创

最新推荐文章于 2025-10-17 14:34:52 发布 · 2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#SLAM #VINS #BOW #fbow

本文介绍了SLAM中的BOW（Bag of Words）技术用于快速地方识别，重点讨论了DBOW和ORBSLAM2中的重定位方法。通过提取图像的二进制特征，构建词汇库，实现图像数据库和循环检测。DBOW使用二进制特征和词袋模型进行数据匹配和群组，确保时间一致性并进行几何验证。ORBSLAM2的重定位过程涉及根据词袋计算候选位姿，并进行PnP RANSAC优化。同时，VINS的重定位模块利用FBOW匹配特征点，进行回环检测。文章还探讨了如何将新图像添加到数据库以及VINS中FBOW的应用。

DBOW

bags of binary words for fast place recognition in image sequence (https://ieeexplore.ieee.org/document/6202705) 这篇文章参考了前文，是ORBSLAM2中重定位模块的基础。首先按照文章的结构介绍这一篇文章。

Binary features

文章中使用FAST特征点和BRIEF描述子。
FAST和BRIEF特征点计算速度快。
使用二进制的BRIEF描述子计算二进制距离可以使用位运算符（xor），计算hamming距离。

Image database

来自原文章

预先离线收集图像，建立vocabulary。主要包括Inverse index 和Direct index。Inverse index是针对每一个词袋的单词，并且记录每个单词在每个关键帧的权重。Direct index是对每个层的记录，记录了在一张图片在当前层有哪些节点包含了图片中的特征word。
使用k means和k medians clustering。使用tf-idf作为权重。
Inverse index是为了以后计算中更快的访问每个单词的权重。
Direct index是为了更加方便的存储每张图片的每个节点的特征信息。
对于一张新图片，对每个特征点在词袋中寻找hamming距离最近的word。最终encoding成一个t维的向量（t为单词的数量）。

Loop detection

A. Data base query

简单的来说就是寻找队列中距离最近的一个关键帧。
文章中使用一个归一化的score。具体定义可以参见原文章。

B. Matching grouping

如果当前的图片和候选人X很“接近”，那么当前图片和X邻近的的一些关键帧也会同样接近。这不是我们想要的。
所以文章提出讲候选图片先grouping据类成一个个island。每个island中只会有一个最终的结果。

C. Temporal consistency

如果当前图片和某一个候选人很接近，那么上一帧应该和这个候选人很接近才对。
所以下一步的检验是候选人帧和上一帧的匹配检测。
最终得到最终候选人。

D. Efficient geometrical consistency

在获取最终的候选人之后要进行几何验证。
首先是使用之前的Direct index找到可能相似的特征匹配候选。
使用RANSAC fundament matrix匹配。

结果分析

BRIEF特征点找到的匹配大多数是中距离和远距离的。因为BRIEF没有scale信息。
SURF特征点点对近距离的特征效果更好。

ORBSLAM2 中的Relocalization

根据词袋计算得到候选

这一个流程基本和前面的ABC思想一致。
在所有关键帧中找与当前帧有公用单词的帧。
提取中存在足够过共有单词的关键帧。
计算相似分数，并且根据co-visibility累积分数。
返回所有高分的候选。

下一步计算位姿

类似上面的C步骤，使用Direct Index寻找特征点匹配。
使用PnP RANSAC，寻找更加准确的匹配点，并且设置位姿初始值。
Pose optimization （bundle adjustment）优化位姿，得到最终结果。

使用方法

下面以FBOW为例子，介绍BOW的整个使用步骤。

1. 创建图像数据集并且提取对应的特征点数据

提取方式有很多，这里就不赘述了。

2. 创建Vocabulary

根据上面提取的特征点数据，将描述子的格式转变为一个vector。然后选择适当的创建参数，最后开始创建。整个过程需要一段时间完成。但是这是一个一次性的工作，一旦建立完成，就不需要再重复了。
这一步的图片数据库选择（图片的分布，数据量大小等），会影响之后的匹配结果，所以一定要仔细思考慎重选择。

    // vSIFTdescritpors is a set of sift feature points
    std::vector<cv::Mat> vSIFTdescritpors;

    // the vocabulary creation options
    fbow::VocabularyCreator::Params params;
    params.k = 10;
    params.L = 6;
    params.nthreads = 4;
    params.maxIters = 11;
    params.verbose = true;

    // create the creator
    fbow::VocabularyCreator voc_creator;
    std::cout << "Creating a " << params.k << "^" << params.L << " vocabulary..." << std::endl;

    // record time
    auto t_start=std::chrono::high_resolution_clock::now();
  
    // create the sift feature vocabulary
    try{
        voc_creator.create(voc,vSIFTdescritpors,"sift", params);
    }catch(std::exception &ex){
        std::cerr << ex.what() << std::endl;
    }

    // end of creation
    auto t_end = std::chrono::high_resolution_clock::now();
    std::cout << "time = " << double(std::chrono::duration_cast<std::chrono::milliseconds>(t_end-t_start).count()) << " msecs ";
    std::cout << " nblocks = " << voc.size() << std::endl;
    std::cerr << "Saving " << save_path << std::endl;
  
    // save the created vocabulary to file for further use
    voc.saveToFile(save_path);