论文标题
H2GFormer: Horizontal-to-Global Voxel Transformer for 3D Semantic Scene Completion H2GFormer: 用于 3D 语义场景补全的水平到全局体素转换器
论文链接
H2GFormer: Horizontal-to-Global Voxel Transformer for 3D Semantic Scene Completion论文下载
论文作者
Yu Wang, Chao Tong
内容简介
本文提出了一种名为H2GFormer的基于Transformer的3D语义场景补全框架,旨在通过有效整合来自LiDAR或图像的输入,密集预测3D场景中每个体素的占用情况和类别。H2GFormer采用水平到全局的注意力机制,充分考虑了体素在水平方向上的变化及物体边界体素的特征。通过引入水平窗口到全局注意力模块(W2G),该框架能够有效融合语义信息,并在网络训练中使用内部-外部位置感知损失(IoE-PALoss)来强调物体过渡区域的重要性。实验结果表明,H2GFormer在几何和语义补全任务中均表现出优异的性能,相较于现有的最先进方法,性能提升显著。
分点关键点
-
H2GFormer框架
- H2GFormer通过引入水平到全局的注意力机制,解决了现有方法在处理体素时忽视水平方向变化的问题。该框架首先在水平方向上扩散语义信息,然后将其传播到全局体素,确保语义特征的可靠融合。
-
水平窗口到全局注意力模块(W2G)
- W2G模块通过将可见区域的特征水平扩散,再进行全局传播,增强了有效特征的保留。这一过程使得模型能够更好地捕捉到物体边界和内部的语义信息。
-
内部-外部位置感知损失(IoE-PALoss)
- IoE-PALoss用于强调物体过渡区域的体素重要性,帮助模型更好地处理不同方向的体素特征。该损失函数通过量化体素在不同位置的意义,提升了模型的学习效果。
-
实验结果与性能提升
- 在SemanticKITTI数据集上的实验表明,H2GFormer在几何和语义补全任务中均超越了现有的最先进方法,具体表现为在VoxFormer-S上提升了19.7%的性能,展示了其在实际应用中的潜力。
- 在SemanticKITTI数据集上的实验表明,H2GFormer在几何和语义补全任务中均超越了现有的最先进方法,具体表现为在VoxFormer-S上提升了19.7%的性能,展示了其在实际应用中的潜力。
论文代码
代码链接:https://github.com/Ryanwy1/H2GFormer
中文关键词
- 3D语义场景补全
- Transformer
- 水平到全局注意力
- 体素
- 内部-外部位置感知损失
- 语义信息融合
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!