Co-Slam论文及复现记录

孤心不寒

已于 2024-12-09 19:13:34 修改

阅读量821

点赞数 30

文章标签：计算机视觉三维重建论文阅读

于 2024-12-09 18:29:16 首次发布

本文链接：https://blog.youkuaiyun.com/Destiny_Di/article/details/144354747

版权

Overview

在这里插入图片描述

输入RGB-D流： $\{I_t\}^{N}_{t=1}\{D_t\}^{N}_{t=1}$ ，它们带有已知相机内参 $K\in \mathbb{R}^{3\times 3}$ 。通过联合优化相机姿态 $\{\xi_t\}^{N}_{t=1}$ 和神经场景表示 $f_{theta}$ 来实现密集映射和追踪。

隐式表示方式将世界坐标 $\mathrm{x}$ 映射为颜色 $\mathrm{c}$ 和TSDF（截断符号距离） $s$ 的值： $f_{\theta}(\mathrm{x})\rightarrow(\mathrm{c},s)$ 。

在每次映射迭代中对从全局像素集中随机采样的一组像素执行全局捆绑调整，联合优化场景表示 $\theta$ 和所有相机姿态 $\xi_{t}$ 。

联合坐标和参数编码

采用坐标编码进行场景表示，通过是使用稀疏参数编码加速训练：使用One-blob编码 $\gamma(x)$ ，而非将空间坐标嵌入到多个频带中。作为场景表示，采用基于多分辨率哈希的特征网格 $\mathcal{V}_{\alpha}=\{\mathcal{V}^{l}_{\alpha}\}^{L}_{l=1}$ 。每个级别的空间分辨率以渐进的方式设置在最粗略（coarsest）的 $R_{min}$ 和最精细（finest）的分辨率 $R_{max}$ 之间。通过三线性插值查询每个采样点 $\rm{x}$ 处的特征向量 $\mathcal{V}_{\alpha}（\rm{x}）$ 。几何解码器输出预测的SDF值 $s$ 和特征向量 $\rm{h}$ ： $f_{\tau}(\gamma(\mathrm{x}),\mathcal{V}_{\alpha}(\mathrm{x}))\rightarrow(\mathrm{h},s)$ 。

最终，颜色多层感知机预测RGB值： $f_{\phi}(\gamma(\mathrm{x}),h)\rightarrow\mathrm{c}$ 。

这里的 $\theta=\{\alpha,\phi,\tau\}$ 是可学习的参数。基于哈希的多分辨率特征网格表示中注入One blob编码，可以实现在线SLAM所需的快速收敛、高效内存使用和孔洞填充。

深度和颜色渲染

沿采样光线整合预测值来渲染深度和颜色。具体来说，给定相机原点 $\mathrm{o}$ 和光线方向 $\mathrm{r}$ ，均匀采样 $M$ 个点： $\mathrm{x}_i=\mathrm{o}+d_i\mathrm{r},i\in \{1,...,M\}$ ，这些点具有深度值 ${t_1,...,t_M\}$ 以及预测的颜色 $\{\mathrm{c_1,...,\mathrm{c}_M}\}$ 。

渲染公式如下： $\hat{\mathrm{c}}=\frac{1}{\sum^{M}_{i=1}w_i}\sum^{M}_{i=1}w_i\mathrm{c}_i,\hat{d}=\frac{1}{\sum^{M}_{i=1}w_i}\sum^{M}_{i=1}w_id_i$ 。

其中， ${w_i\}$ 是沿着光线计算的权重。需要一个转换函数将预测的SDF值 $s_i$ 转换为权重 $w_i$ 。与Neus中提出的渲染方程相反，这里采用简易的钟形（bell-shaped）模型并通过两个Sigmoid函数 $\sigma(·)$ 直接计算权重 $w_i$ ： $w_i=\sigma(\frac{s_i}{tr})\sigma(-\frac{s_i}{tr})$ 。

这里的 $t r$ 是截断距离。

深度引导采样：使用深度引导采样：除了在最近除和最远处之间均匀采样 $M_c$ 个点外，对于具有有效深度测量的射线，还需要对 $d−d_s，d+d_s]$ 范围内的 $M_f$ 个近表面点进行均匀采样，其中 $d_s$ 是一个小偏移。

追踪和捆绑调整

目标函数：追踪和捆绑调整是通过最小化与可学习参数 $\theta$ 和相机参数 $\xi_t$ 相关的目标函数来实现的。颜色和深度渲染的损失是渲染结果和观测值之间的 $\mathcal{l}_2$ 误差： $\mathcal{L}_{rgb}=\frac{1}{N}\sum^{N}_{n=1}(\hat{c}_n-c_n)^2,\mathcal{L}_d=\frac{1}{|R_d|}\sum_{r\in R_d}(\hat{d}_r)-D[u,v]^2$ 。

其中， $R_d$ 是具有有效深度测量的光线几何， $u, v$ 是图像平面上的对应像素。

为了实现具有详细几何形状准确、平滑的重建，这里应用近似SDF和特征平滑度损失。

对于截断区域内的样本，比如 $|D[u,v]-d\leq tr|$ 这些点，使用采样点与其观测到的深度值之间的距离作为真实SDF近似值的监督： $\mathcal{L}_{sdf}=\frac{1}{|R_d|}\sum_{r\in R_d}\frac{1}{|S^{tr}_{r}|} \sum_{p\in S^{tr}_{r}}(s_p-(D[u,v]-d))^2$ 。

对于远离表面的点，比如 $∣ D [u, v] - d > t r ∣$ ，使用一个自由空间损失，迫使SDF预测为截断距离 $t r$ ： $\mathcal{L}_{fs}=\frac{1}{|R_d|}\sum_{r\in R_d}\frac{1}{|S^{fs}_{r}|} \sum_{p\in S^{fs}_{r}}(s_p-tr)^2$ 。

为了防止在未观察到的自由空间区域中由哈希碰撞引起的噪声重建，这里对插值特征 $\mathcal{V}_{\alpha}(\mathrm{x})$ 进行了额外的正则化： $\mathcal{L}_{smooth}=\sum_{x\in \mathcal{G}}\Delta^2_x+\Delta^2_y+\Delta^2_z$ 。这里的 $\Delta_{x,y,z}=\mathcal{V}_{\alpha}(\mathrm{x}+\epsilon_{x,y,z}-\mathcal{V}_{\alpha}(\mathrm{x}))$ 表示哈希网格上沿三维相邻采样顶点之间的特征度量差异。由于对整个特征网格执行正则化在计算上对于实时映射是不可行的，因此在每次迭代中只在一个小的随机区域中执行正则化。

相机追踪：追踪每一帧相机到世界坐标系的转换矩阵 $\mathrm{T}_{wc} = \exp(\xi ^\wedge_t) \in \mathbb{SE}(3)$ 。当新的一帧输入时，首先初始化当前帧 $i$ 的姿态，使用恒定速度假设： $\mathrm{T}_t=\mathrm{T}_{t-1}\mathrm{T}^{-1}_{t-2}\mathrm{T}_{t-1}$ 。然后在当前帧中选择 $N_t$ 个像素，并通过最小化与相机参数 $\xi_t$ 相关的目标函数来优化姿态。

捆绑调整：在Co-SLAM中，不再需要存储完整的关键帧图像或关键帧选择。相反，只存储像素的一个子集（约 $5\%$ ）来表示每个关键帧。这使我们能够更频繁地插入新的关键帧，并维护一个更大的关键帧数据库。为了进行联合优化，我们从全局关键帧列表中随机采样 $N_g$ 射线的总数，以优化场景表示和相机姿态。关节优化以交替的方式进行。具体来说，我们首先优化 $k_m$ 步长的场景表示 $θ$ ，并使用相机参数 $\{\xi_t\}$ 的累积梯度更新相机姿态。由于每个相机姿态只使用6个参数，这种方法可以提高相机姿态优化的鲁棒性，而梯度累积的额外计算成本可以忽略不计。

复现过程中遇到的困难

这个过程中遇到最麻烦的问题就是pytorch会报错内存问题以及tiny-cuda-nn和pytorch3d的安装，这两个库花了快一天时间，再加上师兄给催的比较紧，所以当时没怎么思考就不断尝试，最后熬夜静下心来好好整理一下，解决。

首先先把requirements.txt中的最后两行删掉，我们要手动安装，采用它们的方式肯定会有问题。

git+https://github.com/facebookresearch/pytorch3d.git
git+https://github.com/NVlabs/tiny-cuda-nn/#subdirectory=bindings/torch

pytorch

项目的开源baseline：[HengyiWang/Co-SLAM: CVPR’23] Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM中用的是以下方法安装的pytorch：

在这里插入图片描述

但是我在多个服务器用该方法安装都不成功，有的会报错显存不足，有的直接kill掉安装指令。后来查询之后发现是因为这种方式下载的临时文件很大，超出了系统分配的预置空间，所以不能用这个指令，可以直接在pytorch官网Previous PyTorch Versions | PyTorch上找对应版本的安装指令：

在这里插入图片描述

这里有个小细节，发现AutoDL上的服务器用给定的指令：

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c conda-forge

无法安装，可以把后面的conda-forge修改成功nvidia：

conda install pytorch==1.10.0 torchvision==0.11.0 torchaudio==0.10.0 cudatoolkit=11.3 -c pytorch -c nvidia

这样pytorch就安装成功了。

tiny-cuda-nn

项目的开源baseline：[HengyiWang/Co-SLAM: CVPR’23] Co-SLAM: Joint Coordinate and Sparse Parametric Encodings for Neural Real-Time SLAM中提到：
在这里插入图片描述

我们要手动从源代码中安装，先clone对应的repo，可以任意指定文件夹：

# Build tinycudann 
git clone --recursive https://github.com/nvlabs/tiny-cuda-nn

安装

这里没有什么坑，直接按照co-slam的要求执行即可：

# Try this version if you cannot use the latest version of tinycudann
#git reset --hard 91ee479d275d322a65726435040fc20b56b9c991
cd tiny-cuda-nn/bindings/torch
python setup.py install

不过安装过程消耗时间也会很久，几十分钟左右。

pytorch3d

linux系统安装pytorch3d确实有些麻烦，这里参考了很多博客：pytorch3d安装｜踩坑指南 - 知乎，blog.youkuaiyun.com/weixin_60739161/article/details/135680823。可以总结为两个部分，相关依赖和对应库。

安装

然后在官网Files | Anaconda.org上个下载符合自己环境的安装包，比如我的python是3.7，torch是1.10.0，cuda是11.3，那我就下载pytorch3d-0.7.1-py37_cu113_pyt1110.tar.bz2

下载完成后不用解压，直接安装：

conda install pytorch3d-0.7.1-py37_cu113_pyt1110.tar.bz2

这里也需要很长时间，几十分钟左右。

这样两个依赖就可以完成。

运行

修改config文件夹里的yaml文件，把指定路径索引到数据集，然后命令行输入以下指令即可：

python coslam.py xxx/xxxx.yaml