参考链接:

Pre-work
在进行下面的处理处理之前,kinectFusion实际还对原始的深度信息进行了一定的降噪平滑,采用双边滤波(Bilateral filtering),在保留边缘的基础上进行平滑,是个可以接受的选择。
Depth Map Conversion
主要由原先的图像点u=(x,y),以及深度值D(u),求得每个点的法向量n(u)。根据相机的内部矩阵,将图像2D坐标转化为相机原点坐标系的3D点。其重点是,如何从raw depth 计算出 vertex和normal?
已知的raw depth可以认为是一个2.5D 的信息,即由像素u的坐标x、y和对应深度 D i ( u ) \mathbf{D}_{i}(\mathbf{u}) Di(u)来组成。在相机校准后已经可以获得相机的焦距, 光心,扭曲参数以及相机变化矩阵(world->camera),所以我们可以通过back project的方法 v i ( u ) = D i ( u ) K − 1 [ u , 1 ] \mathbf{v}_{i}(\mathbf{u})=\mathbf{D}_{i}(\mathbf{u}) \mathbf{K}^{-1}[\mathbf{u}, \mathbf{1}] vi(u)=Di(u)K−1[u,1]来获得在camera space下的三维点 v i ( u ) \mathbf{v}_{i}(\mathbf{u}) vi(u),并且根据深度图上的相邻像素来计算出每个点的normal n i ( u ) = ( v i ( x + 1 , y ) − v i ( x , y ) ) × ( v i ( x , y + 1 ) − v i ( x , y ) ) \mathbf{n}_{i}(\mathbf{u})=\left(\mathbf{v}_{i}(x+1, y)-\mathbf{v}_{i}(x, y)\right) \times\left(\mathbf{v}_{i}(x, y+1)-\mathbf{v}_{i}(x, y)\right) ni(u)=(vi(x+1,y)−v