具身智能
文章平均质量分 87
bhoigu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
NVIDIA Cosmos™:加速物理人工智能的生成式世界模型平台
World Foundation Model(WFM) 是 Cosmos 的底层支撑技术,是一种专门为物理世界感知与模拟设计的生成式世界模型。WFM 能够在模拟空间中重构真实物理交互环境,学习物体之间的动态因果机制与演化过程。连续潜空间(Continuous Latent)与离散潜空间(Discrete Latent)的建模能力可扩展至多模态输入(视觉、语言、轨迹、深度等)具备从起始帧生成中间状态序列的能力,适用于视频生成、运动模拟等场景。原创 2025-05-31 20:42:02 · 1377 阅读 · 0 评论 -
智源线虫登Nature子刊封面,具身智能迎新纪元
BAAIWorm天宝不仅是生物模拟的突破,更为具身智能与AGI研究提供了生物启发的新范式。它所倡导的闭环思维、系统整合和结构还原,为未来构建拥有真实感知、运动与决策能力的人工智能系统打下坚实基础。原创 2025-05-26 15:38:51 · 948 阅读 · 0 评论 -
SpatialLM:开源3D视觉大模型,实时识别场景内容
在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。SpatialLM专门设计用来处理点云数据并进行空间理解。该模型通过分析来自不同来源的数据(如手机视频、RGBD图像、LiDAR传感器等),重建和理解三维环境。它能够将杂乱无章的3D点云转化为结构化的空间描述,包括房间布局、物体位置和尺寸、墙壁、窗户、门等关键信息。这种能力对于机器人在现实环境中的导航、避障、物品搬运等任务至关重要。原创 2025-05-24 22:01:09 · 1389 阅读 · 0 评论 -
Genie 2:打造无限可能的 3D 交互世界!
2024年12月,DeepMind 在美国发布了其最新的生成式世界建模系统 —— Genie 2。作为原始 Genie 模型的升级版本,Genie 2 能够仅通过一张图片与一句文本提示,如“一个可爱的机器人在森林中”,自动生成一个具有交互性的 3D 虚拟环境,具备物理一致性与无限延展性。该系统标志着在生成式 AI 与虚拟环境构建领域的一次重大突破。原创 2025-05-24 21:41:09 · 812 阅读 · 0 评论 -
UniVLA:让不同机器人说同一种“动作语言“
想象一下在不远的未来,通用机器人真正走进了日常生活。我们希望当你发出一条自然语言指令,无论是“帮我给猫喂食”,还是“帮我关掉台灯”,它都能够理解你的意图,并准确地完成动作——不依赖预定义的任务模板,也不受限于曾经训练过的数据分布。2025年5月,香港大学、OpenDriveLab和AgiBot的研究团队发表了一项突破性研究《Learning to Act Anywhere with Task-centric Latent Actions》(基于任务中心潜在动作的广域行动学习)。原创 2025-05-23 15:27:10 · 1008 阅读 · 0 评论 -
NaVILA:具身智能新发展,让机器人听懂“人话”
NaVILA(Navigation via Vision, Language, and Action)是英伟达(NVIDIA)与美国加利福尼亚大学于2024年年底联合提出的最新开源机器人导航框架。该框架的核心目标是让机器人“听懂人话,并在真实世界中完成任务”。NaVILA突破了传统机器人导航对地图和传感器的依赖,以更自然、更灵活的方式在人类环境中导航执行任务。NaVILA旨在解决视觉和语言导航问题。原创 2025-05-22 21:32:54 · 997 阅读 · 0 评论
分享