基于深度多模态网络的季节不变语义分割

基于深度多模态网络的季节不变语义分割

(略读)

原文 Season-Invariant Semantic Segmentation with A

Deep Multimodal Network

摘要

语义场景理解对于越野行驶的自主车辆来说是一种有用的能力。虽然摄像头是用于语义分类的最常见传感器,但当列车和测试装置之间因照明、天气和季节变化而发生显著变化时,使用摄像头图像的方法的性能可能会有所降低。另一方面,来自主动传感器(如激光雷达)的3D信息对这些因素相对不变,这促使我们研究在这种情况下是否可以使用它来提高性能。在本文中,我们提出了一种新的多模态卷积神经网络(CNN)结构,由二维和三维两个流组成,通过将三维特征投影到图像空间进行融合,以实现鲁棒的像素语义分割。我们在一个新的越野地形分类基准中对我们提出的方法进行了评估,结果表明,相对于纯图像baseline,导航相关语义类的联合平均交叉度(IoU)提高了25%。

介绍

对于在非结构化越野环境中运行的自动驾驶车辆,根据语义类别(如“trail”、“grass”或“rock”)了解其环境有助于安全、谨慎地导航。由于虚假信息可能导致碰撞或其他事故,因此必须具有鲁棒的场景理解。
场景理解的一个重要步骤是语义图像分割,它在像素级对图像进行分类。近年来,深度卷积神经网络(CNN)在语义分割方面取得了最新进展[5,6,8,10,12,17,19],超过了传统的计算机视觉算法。

我们观察到,当训练集和测试集之间存在明显的外观差异时,CNN的分割性能会受到影响,这是由光照、天气和季节造成的(图1)。一个简单的解决方案是添加更多不同场景的训练数据,但这种方法成本高昂,因为需要收集数据并标记训练。
相反,解决这一问题的有效方法是使用一个额外的、互补的传感器,如激光雷达。相机在视野范围和数据密度方面具有优势,而激光雷达在对照明、天气和季节引起的外观变化不变性方面具有优势。因此,使用激光雷达收集的图像和3D点云的组合方法为CNN利用其互补特性创造了机会。
然而,以下问题仍然悬而未决:

1)如何联合使用两个传感器进行图像分割,以及

2&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值