通过2D模型知识迁移的数据高效3D学习者
1. 引言
如今,3D传感器在AR/VR、3D重建和自动驾驶等应用中需求旺盛。为了对捕获的3D数据进行高级场景理解(如识别、语义分割),基于深度学习的模型因其出色的性能而被广泛应用。随着3D传感器变得更加容易获取,深度3D模型的架构也在不断发展,以提高结果质量。
在2D视觉任务中,在ImageNet上进行模型预训练已成为一种常用策略,可在不同下游任务中实现更好的性能。然而,由于获取和标注多样化的点云数据比2D图像需要更多的精力,因此没有像ImageNet这样的标准大规模数据集来预训练3D模型。结果,3D模型通常从头开始训练,这阻碍了性能的提升,尤其是在注册点云数据稀缺的情况下。
为了避免数据标注的负担,自监督学习已成为无标签预训练2D模型的替代方法。在3D数据中,PointContrast使用对比损失来学习具有视觉重叠的两个点云之间的对应关系,提高了下游3D任务的结果。然而,即使不依赖标注,3D数据集的多样性和规模仍然无法与2D数据集相比。例如,ScanNet只有约一千个室内场景,而ImageNet有超过一百万张图像,涵盖一千个不同的类别。因此,点云上的自监督学习对3D任务的准确性提升仍然有限。
为了解决点云资源有限的问题,我们提出了一种通过RGB - D数据集从2D模型转移知识的3D模型预训练方法。单视图深度传感器比以往任何时候都更便宜,并且可以作为手机的内置功能广泛普及,用于捕获各种场景。因此,使用RGB - D数据作为桥梁,将强大的2D模型的知识转移到3D模型是一个有价值的探索方向。
1.1 主要贡献
- 我们引入了一种预训练策略,通过RGB - D图像将强大
超级会员免费看
订阅专栏 解锁全文
1215

被折叠的 条评论
为什么被折叠?



