图像分割为三个灰度等级_uNetXST：将多个车载摄像头转换为鸟瞰图语义分割图像...-优快云博客

本文提出了一种方法，通过多个车载摄像头获取360°鸟瞰图，进行语义分割，以克服单目摄像头距离估计的挑战。利用IPM进行初步转换，结合语义信息校正误差，无需BEV图像的人工标注。模型在模拟和真实世界数据上进行了测试，展示了其在自动驾驶环境感知中的潜力。

作者：Longway

来源：公众号@3D视觉工坊

项目地址：https://github.com/ika-rwth-aachen/Cam2BEV

论文地址：https://arxiv.org/pdf/2005.04078.pdf

概述

准确的环境感知对于自动驾驶来说是非常重要的，当用单目摄像头时，环境中的距离估计是一个很大的挑战。当摄像机视角转换为鸟瞰视角(BEV)时，距离能够更加容易的建立。对于扁平表面，逆透视映射能够准确的转换图像到BEV。但是对于三维物体来说，会被这种转换所扭曲，使得很难估计他们相对于传感器的位置。

这篇文章描述了一种获取360°鸟瞰图的方法，这些图像来自于多个摄像头。对校正后的BEV图像进行语义分割，并预测遮挡的部分。该方法不需要手工标注数据，而是在合成数据集上面进行训练，这样就能够在真实世界表现更好的效果。

介绍

最近，自动驾驶受到工业研究的广泛关注。自动驾驶的其中一个关键因素是准确的感知周围的环境，这对于安全来说至关重要。

不同的环境表示通过环境中的坐标信息都能够被计算出来，在用于了解环境的不同类型的传感器中，摄像机因其低成本和成熟的计算机视觉技术而流行。由于单目摄像机只能提供图像平面上位置的信息，因此可以对图像进行透视变换。

透视变换是从一个视角所看到的相同场景的近似，在这个视角中，成像平面与摄像机前面的地平面对齐。将相机图像转换为BEV的方法通常称为逆变换角度映射(IPM)。IPM假设世界是扁平的，但是任何三维物体都会违背这一假设，所以不太适用。

尽管IPM引入的错误是可以校正的，但是仍然需要在BEV中检测目标。深度学习方法对于语义分割等任务来说非常有效，但是需要标记数据，尽管模拟可以获得这些数据，和真实数据比起来还是有一些差距。从模拟中学习到的复杂任务到现实世界的归纳是困难的，为了缩小差距，许多方法都旨