22年8月来自AI2、西雅图华盛顿大学、斯坦福大学和CMU的论文“AI2-THOR: An Interactive 3D Environment for Visual AI”。
House Of inteRactions (THOR),是一个用于视觉 AI 研究的框架。AI2-THOR 由近乎照片般逼真的 3D 室内场景组成,AI 智体可以在场景中导航并与目标交互以执行任务。AI2-THOR 支持许多不同领域的研究,包括但不限于深度强化学习、模仿学习、交互学习、规划、视觉问答、无监督表示学习、目标检测和分割以及认知学习模型。
AI2-THOR 广泛应用于嵌入式人工智能、机器人和计算机视觉等各种任务。它涵盖多种不同类型的场景;不同类型的智体,每种智体都有自己的一套与目标交互的操作;支持多种图像模式;并具有提供有关环境状态的元数据功能。
如图所示AI2-THOR 的智体模拟器循环,其中显示与 Unity 后端交互的前端 Python API。在这里,操作从 Python API 调用,并通过本地服务器发送到 Unity。Unity 是一个强大的实时游戏引擎,它存储场景、有关如何执行操作的代码、具有其属性的 3D 目标以及用于渲染不同图像模态的着色器。然后,Unity 返回一个事件,其中包含来自场景中摄像机的图像和环境元数据。
作为 AI2-THOR 的一部分,已经构建了许多场景数据集,包括 iTHOR、RoboTHOR [1]、ProcTHOR- 10K [2] 和 ArchitecTHOR [2]。这些场景数据集中的每一个都是交互式的,可以通过相同的 API 与任何智体一起使用。