Habitat-Matterport 3D 数据集：1000 个用于具身 AI 的大型 3D 环境

最新推荐文章于 2024-10-18 12:36:08 发布

三谷秋水

最新推荐文章于 2024-10-18 12:36:08 发布

阅读量1.8k

点赞数 29

CC 4.0 BY-SA版权

分类专栏：人工智能机器学习计算机视觉文章标签：人工智能机器学习深度学习机器人

本文链接：https://blog.youkuaiyun.com/yorkhunter/article/details/142300411

21年3月来自Facebook AI，UT Austin，Georgia Tech，Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。

Habitat-Matterport 3D (HM3D) 是一个大型数据集，包含来自现实世界中各种位置的 1,000 个建筑物规模的 3D 重建。数据集中的每个场景都由内部的纹理 3D 网格重建组成，例如多层住宅、商店和其他私人室内空间。HM3D 在物理规模、重建完整性和视觉保真度方面超越了很多可用于学术研究的数据集。HM3D 包含 112.5k 平方米的可导航空间，比其他建筑物规模的数据集（如 MP3D 和 Gibson）大 1.4 - 3.7 倍。与现有的照片级逼真的 3D 数据集（如 Replica、MP3D、Gibson 和 ScanNet）相比，从 HM3D 渲染图像的视觉保真度要高 20 - 85%。用真实相机拍摄的对应图像，由于表面重建不完整，HM3D 网格的伪影减少了 34 - 91%。

HM3D 的规模、保真度和多样性的增加直接影响使用它训练的具身 AI 智体性能。事实上，HM3D 在以下意义上是“Pareto 最优”的——无论是在 HM3D、Gibson 还是 MP3D 上进行评估，在 HM3D 上训练执行 PointGoal 导航的智体都能实现最高性能。在其他数据集上进行训练则不能做出类似的说法。HM3D 训练的 PointNav 智体在 Gibson 测试数据集上实现了 100% 的性能。

如图所示：Habitat-Matterport 3D (HM3D) 。左侧的图像显示 HM3D 扫描子集的拼贴画。右上角的图像是特定扫描的特写视图，右下角的图像是扫描中两个摄像机视点的快照。

请添加图片描述