今天再和大家分享两篇具身智能方向的文献,探究其最新动态。具身智能作为脑科学、机器人学与AI的三体交汇点,正经历着"感知-决策-行动"闭环的技术重构。传统机器人依赖预设程序完成固定动作,而新一代系统通过视觉语言模型(VLM)理解环境语义,借助强化学习在试错中积累具身经验。
当前具身智能研究呈现三大趋势:其一,大模型驱动的感知升维,如VLMs赋予机器对“半满的水杯”“倾斜的椅背”等场景的语义理解;其二,模块化架构设计,通过分层技能库实现从“开门”到“组装家具”的任务级迁移;其三,仿真-现实协同进化,基于物理引擎的百万级场景预训练大幅降低真实环境试错成本。尽管面临动态环境适应性、实时计算负载等挑战,该领域在医疗康复、太空探索等场景的落地潜力已引发IBM、波士顿动力等巨头竞逐。
小编为大家整理了24篇具身智能方向的前沿文章,都是大佬团队出品,开源的都附上了代码方便复现,希望能给各位的论文加加速。
点击【AI十八式】的主页,获取更多优质资源!
【论文1】《Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills》

方法介绍
-
基础模型(Foundation Model, FM):用于高级认知任务,如指令理解、任务规划和推理。
-
模块化技能库(Modular Skill Library):提供稳定的行走和灵巧操作技能。
-
连接器(Connector):轻量级的视觉-语言模型(VLM),用于将FM的高级语言计划转换为可执行的技能命令,并协调行走和操作技能。

创新点
-
分层代理框架:将FM与模块化技能库结合,通过连接器模块实现高效执行。
-
连接器模块:填补了FM语言计划与低级技能执行之间的空白,增强了机器人在现实世界中的决策能力。
-
主动视觉:利用双目RGB相机提供主动视觉,增强了机器人在导航和操作任务中的灵活性和效率。

论文链接:[2503.12533] Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
project:Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
【论文2】《Gemini Robotics: Bringing AI into the Physical World》

方法介绍
-
Gemini 2.0:作为基础模型,提供多模态理解和推理能力。
-
Gemini Robotics-ER(Embodied Reasoning):扩展Gemini的多模态推理能力到物理世界,增强空间和时间理解。
-
Gemini Robotics:基于Gemini Robotics-ER,通过机器人动作数据微调,实现直接控制机器人。

创新点
-
Embodied Reasoning(ERQA基准):评估多模态模型的物理世界理解能力。
-
Gemini Robotics-ER:展示强大的物理世界推理能力,包括3D感知、指向、轨迹和抓取预测。
-
Gemini Robotics:连接Gemini的推理能力与机器人动作,实现复杂操作任务的直接控制。
-
零样本和少样本控制:通过代码生成和上下文学习,实现机器人任务的快速适应。

论文链接:[2503.20020] Gemini Robotics: Bringing AI into the Physical World
点击【AI十八式】的主页,获取更多优质资源!
2170

被折叠的 条评论
为什么被折叠?



