具身智能仿真
文章平均质量分 94
具身智能仿真通过高保真虚拟环境,让“带身体”的智能体与世界交互(走、抓、推等)而自动生成的大规模、可标注、可重复的训练与评估数据。
行如流水
具身智能算法工程师一枚,记录自己看的一些模型和论文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
EmbRACE-3K:复杂环境中的体现推理和行动
本文提出EmbRACE-3K数据集,旨在解决视觉语言模型在具身环境中的三大挑战:短视探索、动态空间语义漂移和目标遗忘。该数据集包含3000多个由虚幻引擎构建的多样化任务,涵盖导航、物体操作等场景,并配有详细的多模态标注。研究采用两阶段微调方法(监督学习+GRPO强化学习)提升Qwen2.5-VL模型的具身推理能力。实验表明,经过微调的模型在成功率等指标上显著提升,验证了数据集的有效性。该工作为具身智能研究提供了高质量数据支持和评估基准。原创 2025-12-15 22:12:54 · 694 阅读 · 0 评论 -
详解InternData-A1:仿真数据性能媲美真机数据
本文提出InternData-A1,一个大规模高保真合成机器人操作数据集,包含4种机器人、18项技能、70个任务的630k轨迹数据(7433小时)。通过模块化技能组合和高效数据生成框架,该数据集覆盖刚性/铰接/可变形/流体物体交互,显著提升了仿真数据的多样性和真实性。实验表明,仅用仿真数据训练的模型在真实任务中成功率超50%,验证了高质量合成数据对机器人预训练的有效性。该工作为降低真实数据采集成本、提升模型泛化能力提供了可行方案。原创 2025-12-08 19:25:25 · 1148 阅读 · 0 评论 -
详解genmanip,生成桌面操作仿真数据
GENMANIP是一个基于LLM驱动的桌面仿真平台,用于评估指令跟随的机器人操作任务。其核心创新包括:1)构建大规模3D资产库(10K+带VL注释的物体);2)提出面向任务的场景图(ToSG)表示法,通过LLM自动生成多样化任务场景;3)开发模块化操作系统,整合视觉基础模型(如SAM、GPT-4V)进行目标定位、抓取规划和运动控制。实验表明,该系统能生成复杂的长时程任务(如"把红色杯子放到微波炉左边"),平均任务完成率达65.3%。主要局限在于仅支持桌面Pick-and-Place操作,原创 2025-12-08 19:10:37 · 553 阅读 · 0 评论 -
RoboTwin 2.0:生成双臂机器人仿真数据
《RoboTwin 2.0:面向双臂机器人的仿真数据生成框架》摘要:该研究提出了一种创新性的仿真数据生成系统,通过多模态大语言模型和模拟反馈循环构建自动化专家数据生成管道。系统包含三大核心组件:1)集成视觉语言模型的闭环验证机制,确保生成高质量操作轨迹;2)覆盖语言指令、物体杂波等五维度的领域随机化方案;3)针对不同机器人硬件的自适应操作候选项模块。项目贡献了包含731个标注物体的资产库、超10万条专家轨迹数据集及标准化测试平台,有效解决了仿真数据质量差、环境单一和跨平台适配等关键问题。原创 2025-09-17 16:58:41 · 1088 阅读 · 0 评论 -
AHA:生成机器人仿真数据集
摘要:开放世界环境中的机器人操作不仅需要执行任务,还需要在执行过程中检测故障并从中学习的能力。虽然视觉语言模型(VLMs)和大型语言模型(LLMs)的最新进展增强了机器人的空间推理和解决问题的能力,但这些模型往往难以识别和推理故障,限制了它们在现实世界应用中的有效性。通过将故障检测视为自由形式的推理任务,AHA识别故障并生成详细的解释,这些解释适用于模拟和现实场景中的各种机器人、任务和环境。原创 2025-09-17 16:43:01 · 1199 阅读 · 0 评论
分享