引言: 3DGS因其渲染速度快和高质量的新视角合成而备受关注。一些研究人员尝试将3DGS应用于驾驶场景的重建。然而,这些方法通常依赖于多种数据类型,如深度图、3D框和移动物体的轨迹。此外,合成图像缺乏标注也限制了其在下游任务中的直接应用。这些挑战促使研究者们寻求更简便高效的解决方案。
©️【深蓝AI】编译
论⽂题目:EGSRAL:An Enhanced 3D Gaussian Splatting based Renderer with Automated Labeling for Large-Scale Driving Scene
论文作者:Yixiong Huo, Guangfeng Jiang, Hongyang Wei, Ji Liu, Song Zhang, Han Liu, Xingliang Huang, Mingjie Lu, Jinzhang Peng, Dong Li, Lu Tian, Emad Barsoum
论文地址:https://arxiv.org/abs/2412.15550
为了解决上述问题,作者提出了EGSRAL,这是一种基于3DGS的方法,完全依赖训练图像而无需额外的标注。EGSRAL增强了3DGS在建模动态物体和静态背景方面的能力,并引入了一种新颖的适配器用于自动标注,能够根据现有的标注生成相应的注释。此外,研究人员还提出了一种分组策略,用于解决在渲染大规模复杂场景时的透视问题。这些创新使得EGSRAL在无需额外标注的情况下,能够高效地处理复杂的驾驶场景,并生成大量带标注的图像数据。
实验结果表明,EGSRAL在多个数据集上实现了最先进的性能。结合3DGS强大的多视角合成能力,该方法有望成为自动驾驶领域的ImageNet2.0,为该领域贡献出极大地图像数据集。
1、引入
合成逼真的新视角在计算机视觉和图形学领域中是一个复杂而关键的挑战。随着神经辐射场(NeRFs)的快速发展,自由视角合成逐渐转向大规模视角合成领域,特别是在合成对自动驾驶至关重要的街景方面。然而,由于地理位置的复杂性、多样的环境和变化的道路条件,模拟户外环境具有很大挑战。图像到图像的转换方法被提出用于通过学习源图像与目标图像之间的映射来合成语义标注的街景。虽然这些方法能够生成视觉上令人印象深刻的街景图像,但在局部细节中往往会出现明显的伪影和纹理不一致的问题。此外,合成图像的视角相对统一,这在复杂的自动驾驶场景中应用时也带来了挑战。
为了解决这些挑战,Drive-3DAu引入了一种使用NeRF的3D数据增强方法,旨在在3D空间中增强驾驶场景。DGNR提出了一个新颖的框架,通过从场景中学习密度空间来指导点基渲染器的构建。同时,READ提供了一个大规模的驾驶模拟环境,用于生成用于先进驾驶辅助系统的逼真数据。基于3DGS的方法由于其优越的生成能力,已被用于合成驾驶场景。尽管这些方法生成了适用于自动驾驶的逼真图像,但它们无法同时合成新视角并提供相应的2D/3D标注框,而这些标注框对于监督模型训练至关重要。因此,提升大规模场景的新视角合成能力并实现新视角的自动标注仍然是自动驾驶领域的关键挑战。
为了克服这些挑战,作者提出了一种名为EGSRAL的新框架,基于增强的3DGS技术。该框架在提高新视角合成质量的同时,能够生成相应的标注。具体而言,团队提出了一个形变增强模块,用于细化高斯形变场,增强对动态物体和静态背景的建模能力。此外,他们还引入了一个不透明度增强模块,利用神经网络取代原有的可学习参数,显著提升了复杂驾驶场景的建模能力。进一步地,为了解决在渲染大规模复杂场景时视角不合理的问题,即不应包含被遮挡的远处高斯点,研究人员还为原始3DGS提出了一种分组策略。
总的来说,研究工作的贡献如下: (1) 提出了一个名为EGSRAL的增强型3DGS渲染器,能够基于现有数据集的标注合成带有相应标注的新视角图像。EGSRAL引入了形变增强模块和不透明度增强模块,提升了3DGS在复杂场景中的建模能力。 (2) 此外,为了解决在渲染大规模复杂场景时视角不合理的问题,提出了原始3DGS的分组策略。 (3) 与之前仅关注新视角合成的方法不同,作者还提出了一种带有三个约束的适配器,能够将相邻的标注框转换为自动驾驶领域中新视角的标注框。 (4) 实验结果表明,该方法在大规模场景的渲染性能上优于现有方法。此外,带有相应标注的新视角图像显著提升了2D/3D检测模型的性能。这一成果不仅展示了3