大规模场景的语义感知重建
1. 语义感知重建概述
语义在人类构建场景认知时是重要信息。语义级别的 3D 场景重建与理解在计算机视觉、机器人技术和自主系统领域备受关注。场景感知的 3D 重建方法旨在通过揭示观察数据背后的语义信息(如几何结构和材料属性),以更全面的方式恢复场景模型。基于场景重建结果,3D 理解任务的目标是分析 3D 模型,识别场景的语义信息,如物体类别和房间结构。
从语义角度出发,我们深入探索场景中的隐藏信息,主要探讨场景重建和场景理解。首先讨论室内场景的物体级语义理解,实现语义分割和实例分割;接着介绍一种高效且增量式的实例分割架构;最后将语义分割和实例分割方案应用于大规模场景重建任务,实现高效的大规模场景重建和语义理解目标。
2. 基于占用的语义实例分割用于场景理解
2.1 现有 3D 分割方法的局限性
计算机视觉研究涵盖了广泛的 3D 场景语义和实例分割主题。基于卷积类型,最新的深度学习语义分割方法可分为基于点和基于体素两类。本文主要关注基于体素的方法,早期基于体素的方法采用密集 3D 卷积,但由于分析高维数据的计算成本高,无法处理大规模体素网格。后来出现的稀疏卷积利用 3D 点云的固有稀疏性,取得了先进的分割精度,解决了关键计算问题。
然而,现有 3D 分割方法对 3D 输入模型固有的不完整性和噪声敏感,导致分割精度不理想。由于 RGBD 传感器收集的数据存在噪声,一些实例可能高度不完整,导致几何形状不规则和模糊。现有实例 3D 分割方法在这种情况下容易产生错误预测,因为它们未能引入诱导偏差来约束预测的合理性,典型错误包括将噪声部分检测为正常实例。
超级会员免费看
订阅专栏 解锁全文
817

被折叠的 条评论
为什么被折叠?



