😺TemporalLidarSeg(3DV 2020) 主要贡献:
- 提出一种用于时间序列点云的循环分割体系结构(recurrent segmentation architecture),并利用时间依赖性(temporal dependencies)来提高分割结果
- 提出一种时间记忆对齐(Temporal Memory Alignment)策略,直接在 range 图像特征空间的相邻帧之间对齐时间记忆的特征
- 提出一种利用非均匀激光分布(laser distribution)的传感器广义 range 视角投影
文章目录
前言
🙀理解和解释 3D 环境是自动驾驶面临的一个关键挑战,而三维点云的语义分割结合了三维信息和语义,因此为这一任务提供了有价值的贡献。在许多实际应用中,点云是由激光雷达传感器在连续的时间中生成的。所以,通过时间序列(time series)而不是单一的框架可以利用这些时间信息,从而在一定程度上提高语义分割的精度。
😺基于此,论文提出了一种循环分割体系结构,它以一个 range 图像帧作为输入并利用递归聚合(recursively aggregated)的时间信息。为了有效重用前一帧的特征,论文提出了一种时间记忆对齐(TMA)策略,其使用 ego motion 来对齐特征空间中连续帧之间的记忆。此外,论文还研究了残差网络和 ConvGRU 对内存更新的影响。
😻论文作者在两个大型数据集上验证了所提出方法的优点,并将其与几种 SOTA 方法进行了比较。论文的方法在 SemanticKITTI 多扫描(multiple scan)基准测试中排名第一,在单扫描(single scan)基准测试中达到了 SOTA 的性能。此外,评估结果表明,与单帧方法相比,利用时间信息能显著地提高了分割结果。
网络结构
🙀通常情况下,环境很少在短时间内发生剧烈变化,这导致两个相邻的点云帧共享大量信息,即之前的帧仍然包含有价值的信息,但这些信息会随着时间的增加而减少。因此,特别是短期的时间信息或依赖对当前帧分割结果的改善有着巨大的潜力。此外,由于没有考虑运动物体的运动,TMA 对运动的物体会产生系统误差。
😺论文提出的循环分割架构如 Fig. 1 所示。其中,每一帧的特征提取由一个单帧特征提取器(single frame feature extractor)进行;通过对这些特性递归地更新时间记忆,可利用相邻帧的时间依赖,且 TMA 步骤可确保帧之间的一致性。由于它的周期性,之前的帧信息可以持续有效地重用。

- TMA 需要先将上一帧点云进行转换和投影,然后再根据俯仰角和偏转角获取 range 图像中的像素,接着再进行索引操作(具体细节在后面章节
TMA中) - 记忆更新采用两种策略,分别使用残差单元和门控机制(具体细节在后面章节
Temporal Memory中) - 损失的反向传播采用
TBPTT,对 TBPTT 感兴趣可参考这篇博客。具体上讲,当处理到 k 1 k_1 k1 个时间步时,会使用 BPTT 反向传播 k 2 k_2 k2个 时间步。此外,为了让记忆在更新之前聚合到有意义的时间信息,第一次更新至少延迟到 k 3 k_3 k3 步。论文选择 k 1 = k 2 = 5 k_1 = k_2 = 5 k1=k2=5, k 3 = 10 k_3 = 10 k3=10
Adaptive Range Image
😺论文提出的框架采用 range 图像作为输入,因此,需要将点云进行投影操作。对球面投影感兴趣可参考这篇博客,球面投影公式如下:
( u v ) = ( ⌊ ( 1 − ( θ + f u p ) f − 1 ) ⋅ h ⌋ ⌊ 0.5 ⋅ ( 1 − ϕ ⋅ π − 1 ) ⋅ w ⌋ ) , ( 1 ) \begin{aligned} \begin{pmatrix} u \\ v \end{pmatrix} = \begin{pmatrix} \lfloor (1-(\theta+f_{up})f^{-1}) \cdot h \rfloor \\ \lfloor 0.5 \cdot (1- \phi \cdot \pi^{-1}) \cdot w \rfloor \end{pmatrix}, & \quad (1) \end{aligned} (uv)=(⌊(1−(θ+fup)f−1)⋅h⌋⌊0.5⋅(1−ϕ⋅π−1)⋅w⌋),(1)
✍️其中, ( u , v ) (u, v) (u,v) 是图像坐标系, ( h , w ) (h, w) (h,w) 为图像的分辨率(缩放因子); f u p f_{up} fup 为激光雷达上部视场, f d o w n f_{down} fdown 为激光雷达下部视场,而激光雷达视场 f = f u p − f d o w n f=f_{up} - f_{down} f=fup−fdown;对于点 ( x , y , z ) (x, y, z) (x,y,z),其到激光雷达的距离为 r = x 2 + y 2 + z 2 r=\sqrt{x^2 + y^2 + z^2} r=x2+y2+z2,而俯仰角 θ = a r c s i n z r \theta=arcsin \frac{z}{r} θ=arcsinrz,偏转角 ϕ = a r c t a n y x \phi=arctan\frac{y}{x} ϕ=arctanxy。
😿如果激光雷达的垂直堆叠激光(vertically stacked lasers)不是均匀分布的(像 PandaSet 使用的传感器那样),就会导致仰角分布不均匀。因此,使用上面的投影公式会导致许多碰撞(collisions),即可能有多个点被映射到 range 图像的同一像素上。这不仅意味着信息的丢失,而且还意味着对阴影点(shadowed points)预测的缺失。为了减少碰撞次数,论文提出了一种自适应的投影策略。其中,range 图像中的每一行 l ∈ [ 0 , h − 1 ] l \in [0, h-1] l∈[0,h−1] 对应垂直叠加中的一个激光(如 64 线激光雷达对应的 h h h 就为 64),并且每个激光都具有俯仰角(elevation angle) θ ‾ l \overline{\theta}_l θl。为解决非均匀性问题,需要指定俯仰角匹配最近的行,其公式为:
u = a r g m i n 0 ≤ l < h ( ∣ θ ‾ l − θ ∣ ) , ( 2 ) \begin{aligned} u = \underset{0 \le l \lt h}{argmin}(| \overline{\theta}_l - \theta |), & \quad (2) \end{aligned} u=

提出一种用于时间序列点云的循环分割体系结构,利用时间依赖性提高分割精度。通过时间记忆对齐策略直接在相邻帧间对齐特征,并研究了不同记忆更新策略对性能的影响。
最低0.47元/天 解锁文章
715

被折叠的 条评论
为什么被折叠?



