英伟达PhysicalAI-SmartSpaces数据集:重塑智能空间感知的合成数据新范式

数据集概览:构建物理智能的基石

【免费下载链接】PhysicalAI-SmartSpaces 【免费下载链接】PhysicalAI-SmartSpaces 项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/PhysicalAI-SmartSpaces

在人工智能与计算机视觉深度融合的浪潮中,高质量标注数据已成为算法突破的核心驱动力。英伟达(NVIDIA)发布的PhysicalAI-SmartSpaces数据集凭借其独特的合成数据生成模式与多模态标注体系,正迅速成为智能空间感知领域的标杆性资源。该数据集存储于/datasets/ai/huggingface/nvidia/PhysicalAI-SmartSpaces路径下,归属于AI/计算机视觉/PhysicalAI学科交叉领域,并已通过DOI:10.48550/arXiv.2412.00692实现学术引用规范化。

作为首个面向复杂室内场景的全合成多相机追踪数据集,PhysicalAI-SmartSpaces包含来自仓库、医院、零售等1500余个虚拟摄像头的250余小时视频数据。其创新之处在于采用英伟达Omniverse平台进行场景构建,通过IsaacSim仿真引擎实现全自动数据标注,彻底摆脱了传统人工标注的成本桎梏与误差风险。数据集以MP4(H.264)格式存储1080P分辨率视频流,30FPS的帧率确保运动轨迹捕捉的连续性,为多目标追踪算法提供了接近真实世界的动态训练素材。

技术架构:从虚拟仿真到数据资产

合成数据生成流水线

PhysicalAI-SmartSpaces的技术突破源于英伟达构建的"虚拟-真实"闭环数据生产体系。数据集创建始于2023年12月,首个正式版本作为第8届AI City挑战赛(CVPR 2024)核心评测资源发布,标志着合成数据在计算机视觉顶级赛事中的首次规模化应用。其数据采集完全基于虚拟场景构建,通过精确控制光照变化、物体遮挡、动态干扰等环境变量,生成具有丰富covariate特性的训练样本。

自动标注系统是该数据集的另一技术亮点。不同于传统数据集依赖人工标记的低效模式,PhysicalAI-SmartSpaces利用IsaacSim内置的物理引擎与语义分割模块,可同步生成2D边界框、3D姿态、相机内外参数等多维度标注信息。这种原生数字孪生标注方式将数据生产效率提升10倍以上,同时保证标注精度达到像素级水平,为跨相机空间配准等复杂任务提供了精准的监督信号。

数据组织与存储优化

考虑到大规模视频数据的存储与访问需求,数据集采用混合存储架构:原始视频以SquashFS压缩格式归档,提取后LMDB数据库存储标注信息,在Ceph分布式文件系统上实现6.7M(提取后)数据的高效访问。3192个文件的精细分类体系,按照场景类型、相机视角、运动复杂度等维度构建索引,支持研究者快速定位特定任务所需数据子集。这种结构化组织方式使数据集在保持完整性的同时,实现了存储效率与访问速度的平衡。

应用实践:跨场景智能感知的赋能工具

科研与工业界的双重价值

PhysicalAI-SmartSpaces正在成为智能空间研究的全能工具。在学术领域,其标准化的多相机同步数据为跨视域行人重识别、3D轨迹预测等前沿课题提供了统一评测基准。第9届AI City挑战赛(ICCVW 2025)已将该数据集列为核心评测资源,全球超过50支研究团队基于此开发新型追踪算法。工业界方面,零售企业可利用虚拟商场场景数据优化顾客动线分析系统,仓储物流领域则通过模拟叉车运行轨迹提升自主导航机器人的避障能力。

便捷化的访问与使用流程

为降低技术门槛,英伟达设计了极简的数据集调用流程。研究者通过模块管理系统即可完成环境配置:

$ module avail
$ module load datasets
$ module load ai/huggingface/nvidia/PhysicalAI-SmartSpaces/2024

这种即插即用的设计使数据集能无缝集成到PyTorch、TensorFlow等主流深度学习框架中。值得注意的是,数据集采用CC BY 4.0开源协议(详情参见https://choosealicense.com/licenses/cc-by-4.0/),允许商业使用但要求保留原作者署名,这一开放策略极大促进了技术成果的转化应用。

学术规范与引用指南

标准引用格式

使用该数据集的研究成果应遵循以下引用规范:

Tang, Z., Wang, S., Anastasiu, D. C., et al. (2025). The 9th AI City Challenge. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops (ICCVW) (pp. 5467–5476). Honolulu, HI, USA.

Wang, S., Anastasiu, D. C., Tang, Z., et al. (2024). The 8th AI City Challenge. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (pp. 7261–7272). Seattle, WA, USA.

Wang, Y., Meinhardt, T., Cetintas, O., et al. (2024). MCBLT: Multi-camera multi-object 3D tracking in long videos. arXiv preprint arXiv:2412.00692.

BibTeX引用模板

@InProceedings{Tang25AICity25,
author = {Zheng Tang and Shuo Wang and David C. Anastasiu and Ming-Ching Chang and Anuj Sharma and Quan Kong and Norimasa Kobori and Munkhjargal Gochoo and Ganzorig Batnasan and Munkh-Erdene Otgonbold and Fady Alnajjar and Jun-Wei Hsieh and Tomasz Kornuta and Xiaolong Li and Yilin Zhao and Han Zhang and Subhashree Radhakrishnan and Arihant Jain and Ratnesh Kumar and Vidya N. Murali and Yuxing Wang and Sameer Satish Pusegaonkar and Yizhou Wang and Sujit Biswas and Xunlei Wu and Zhedong Zheng and Pranamesh Chakraborty and Rama Chellappa},
title = {The 9th AI City Challenge},
booktitle = {Proc. ICCV Workshops},
pages = {5467--5476},
address = {Honolulu, HI, USA},
year = {2025}
}

@inproceedings{Wang24AICity24,
author = {Shuo Wang and David C. Anastasiu and Zheng Tang and Ming-Ching Chang and Yue Yao and Liang Zheng and Mohammed Shaiqur Rahman and Meenakshi S. Arya and Anuj Sharma and Pranamesh Chakraborty and Sanjita Prajapati and Quan Kong and Norimasa Kobori and Munkhjargal Gochoo and Munkh-Erdene Otgonbold and Ganzorig Batnasan and Fady Alnajjar and Ping-Yang Chen and Jun-Wei Hsieh and Xunlei Wu and Sameer Satish Pusegaonkar and Yizhou Wang and Sujit Biswas and Rama Chellappa},
title = {The 8th AI City Challenge},
booktitle = {Proc. CVPR Workshops},
pages = {7261--7272},
address = {Seattle, WA, USA},
year = {2024}
}

@misc{Wang24MCBLT,
author = {Yizhou Wang and Tim Meinhardt and Orcun Cetintas and Cheng-Yen Yang and Sameer Satish Pusegaonkar and Benjamin Missaoui and Sujit Biswas and Zheng Tang and Laura Leal-Taix{\'e}},
title = {MCBLT: Multi-Camera Multi-Object 3D Tracking in Long Videos},
note = {arXiv:2412.00692},
year = {2024}
}

行业影响与未来展望

PhysicalAI-SmartSpaces的发布标志着计算机视觉数据集发展进入"虚实融合"新阶段。其成功实践验证了合成数据在填补真实世界数据缺口方面的巨大潜力,特别是在隐私敏感场景(如医院病房)与危险环境(如工业车间)的数据获取领域。随着英伟达Omniverse平台的持续迭代,未来数据集将进一步拓展室外场景与极端天气条件的仿真能力,构建覆盖"室内-室外""微观-宏观"全尺度的PhysicalAI数据生态系统。

对于研究者而言,该数据集提供的不仅是训练素材,更是一套完整的虚拟数据生成方法论。通过开源工具链与社区支持,研究者可自定义场景参数、物体类型与运动模式,实现真正意义上的数据驱动创新。这种"数据即代码"的新范式,正推动计算机视觉从"数据拟合"向"物理理解"跨越,为通用人工智能的发展铺设坚实的物理世界认知基础。

作为PhysicalAI系列的关键组成,SmartSpaces数据集与GR00T-X-Embodiment-Sim、Manipulation-SingleArm等机器人学数据集形成技术互补,共同构建从感知到决策的全链条AI训练资源体系。这种跨模态数据协同模式,预示着未来智能系统将具备更强的环境适应能力与任务泛化能力,加速自动驾驶、智能安防、工业元宇宙等领域的技术落地进程。

【免费下载链接】PhysicalAI-SmartSpaces 【免费下载链接】PhysicalAI-SmartSpaces 项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/PhysicalAI-SmartSpaces

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值