作者:Longway
来源:公众号@3D视觉工坊
项目地址:https://github.com/ika-rwth-aachen/Cam2BEV
论文地址:https://arxiv.org/pdf/2005.04078.pdf
概述
准确的环境感知对于自动驾驶来说是非常重要的,当用单目摄像头时,环境中的距离估计是一个很大的挑战。当摄像机视角转换为鸟瞰视角(BEV)时,距离能够更加容易的建立。对于扁平表面,逆透视映射能够准确的转换图像到BEV。但是对于三维物体来说,会被这种转换所扭曲,使得很难估计他们相对于传感器的位置。
这篇文章描述了一种获取360°鸟瞰图的方法,这些图像来自于多个摄像头。对校正后的BEV图像进行语义分割,并预测遮挡的部分。该方法不需要手工标注数据,而是在合成数据集上面进行训练,这样就能够在真实世界表现更好的效果。
介绍
最近,自动驾驶受到工业研究的广泛关注。自动驾驶的其中一个关键因素是准确的感知周围的环境,这对于安全来说至关重要。
不同的环境表示通过环境中的坐标信息都能够被计算出来,在用于了解环境的不同类型的传感器中,摄像机因其低成本和成熟的计算机视觉技术而流行。由于单目摄像机只能提供图像平面上位置的信息,因此可以对图像进行透视变换。
透视变换是从一个视角所看到的相同场景的近似,在这个视角中,成像平面与摄像机前面的地平面对齐。将相机图像转换为BEV的方法通常称为逆变换角度映射(IPM)。IPM假设世界是扁平的,但是任何三维物体都会违背这一假设,所以不太适用。
尽管IPM引入的错误是可以校正的,但是仍然需要在BEV中检测目标。深度学习方法对于语义分割等任务来说非常有效,但是需要标记数据,尽管模拟可以获得这些数据,和真实数据比起来还是有一些差距。从模拟中学习到的复杂任务到现实世界的归纳是困难的,为了缩小差距,许多方法都旨