
具身智能
文章平均质量分 91
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
人形机器人全能运动新突破:HUGWBC实现多模态步态精细调控与实时操控(上交&上海AI lab)
当前的人形机器人行走系统单一、被动,缺乏可扩展性,难以实现如人类般的多样化运动(如奔跑、跳跃、单脚跳等),也无法对步态参数(步频、步幅、脚摆高度等)进行细粒度调整。此外,现有方法在执行运动任务时,缺乏对上半身控制的实时干预能力,限制了机器人在复杂任务中的适应性和灵活性。原创 2025-03-13 15:40:17 · 849 阅读 · 0 评论 -
CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出“时空大脑“
多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。原创 2025-03-04 07:52:48 · 926 阅读 · 0 评论 -
机器人学习和控制的新里程碑!谷歌研发可以打乒乓球的机器人!完胜初学者!
本文的代理架构和训练方法专为解决与人类进行乒乓球竞技所带来的诸多挑战而设计。下图2所示的乒乓球代理由两个控制层级组成,本文称之为高层控制器(HLC)和低层控制器(LLCs)。LLCs是代表不同乒乓球技能的策略,训练以每秒50次的频率生成关节速度命令。例如,LLCs可能代表使用正手击球并击打斜线球、保守地使用反手击球,或使用正手回击下旋发球。HLC负责在每次来球事件中选择应执行的LLC。HLC没有固定的控制频率,而是在对手击球时触发动作。原创 2025-01-07 23:04:01 · 1028 阅读 · 0 评论 -
12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X:7B具身多模态动作模型
传统的基于强化学习的机器人控制方法通常是任务特定的,无法在不同环境或未见过的物体和指令中进行有效推广。尽管视觉语言模型(VLMs)在场景理解和任务规划上表现出色,但它们缺乏生成适用于特定机器人形态的可操作策略的能力。此外,现有的视觉语言行动(VLA)模型在长时间跨度的空间推理和基于实际任务的规划中存在挑战,尤其是在处理复杂任务和模糊指令时。原创 2024-12-26 22:45:49 · 1044 阅读 · 0 评论 -
突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
缺乏大规模的机器人3D数据:现有的3D数据资源不足,限制了机器人在复杂空间任务中的应用。空间几何信息的丢失:在处理和提取3D特征时,可能会丢失一些重要的空间几何信息,影响机器人对环境的感知与操作。原创 2024-12-04 11:48:43 · 1187 阅读 · 0 评论 -
视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。原创 2024-10-22 08:26:06 · 885 阅读 · 0 评论 -
让具身智能更快更强!华东师大&上大提出TinyVLA:高效视觉-语言-动作模型,遥遥领先
解决的问题:现有的视觉-语言-动作(VLA)模型在推理速度慢和需要大量机器人数据进行预训练方面面临挑战,限制了实际应用。提出的方案:引入一种新型紧凑型视觉-语言-动作模型TinyVLA,提供更快的推理速度和更高的数据效率,消除预训练阶段的需求。应用的技术:TinyVLA框架包括两个关键组件:1) 使用高效的多模态模型初始化策略骨干;2) 在微调过程中集成扩散策略解码器,以实现精确的机器人动作。达到的效果。原创 2024-09-28 10:39:05 · 1732 阅读 · 0 评论 -
具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!
文章链接:https://arxiv.org/pdf/2405.14093本综述是关于具身智能领域中新兴的视觉-语言-动作模型的首次全面回顾。对具身智能领域中涌现的VLA模型进行了全面回顾,涵盖了架构、训练目标和机器人任务等各个方面。引入了当前机器人系统的分层结构分类法,包含三个主要组件:预训练、控制策略和任务规划器。预训练技术旨在增强VLAs的特定方面,如视觉编码器或动力学模型。低层次控制策略根据指定的语言命令和感知到的环境执行低层次动作。高层次任务规划器将长远任务分解为由控制策略执行的子任务。原创 2024-08-18 22:32:33 · 1485 阅读 · 0 评论