自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(954)
  • 收藏
  • 关注

原创 HybridVLA:一个统一视觉-语言-动作模型中的协同扩散和自回归

25年3月来自北京大学、北京智源研究院和香港城市大学的论文“HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model”。用于常识推理的视觉-语言模型 (VLM) 的最新进展导致视觉-语言-动作 (VLA) 模型的发展,使机器人能够执行泛化操作。尽管现有的自回归 VLA 方法利用大规模预训练知识,但它们破坏动作的连续性。同时,一些 VLA 方法结合额外的扩散头来预测连续动作

2025-04-04 03:45:00 538

原创 人形机器人基于视觉灵巧操作的模拟-到-现实强化学习方法

25年2月来自 UC Berkeley、Nvidia 和 UT Austin 的论文“Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids”。强化学习在不同问题领域取得有希望的成果,实现人类甚至超人-级的能力,但在灵巧机器人操作方面的成功仍然有限。这项工作调查将强化学习应用于人形机器人解决一系列接触-丰富操作任务的关键挑战。本文引入新技术来克服已发现的挑战并通过实证验证。主要贡献包括

2025-04-04 02:30:00 834

原创 CoT-VLA:视觉-语言-动作模型的视觉思维链推理

25年3月来自Nvidia、斯坦福和MIT的论文“CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models”。视觉-语言-动作模型 (VLA) 已显示出利用预训练的视觉语言模型和各种机器人演示来学习可泛化的感觉运动控制的潜力。虽然这种范式有效地利用了来自机器人和非机器人来源的大规模数据,但当前的 VLA 主要侧重于直接输入-输出映射,缺乏对复杂操作任务至关重要的中间推理步骤。因此,现有的 VLA 缺乏时间规划

2025-04-03 00:15:00 885

原创 MoLe-VLA:通过混合层实现的动态跳层视觉-语言-动作模型实现高效机器人操作

25年3月来自南京大学、香港理工、北大和香港科技大学的论文“MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation”。多模态大语言模型 (MLLM) 在理解复杂语言和视觉数据方面表现出色,使通用机器人系统能够解释指令并执行具体任务。尽管如此,它们在现实世界中的部署仍受到大量计算和存储需求的阻碍。最近对 LLM 层中同质模式的洞察

2025-04-03 00:15:00 1485

原创 大语言模型智体的综述:方法论、应用和挑战(上)

25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM) 智体具有目标驱动行为和动态适应能力,可能代表着通向通用人工智能的关键途径。本研究通过以方法论为中心的分类

2025-04-02 00:15:00 620

原创 大语言模型智体的综述:方法论、应用和挑战(下)

25年3月来自北京大学、UIC、广东大亚湾大学、中科院计算机网络信息中心、新加坡南阳理工、UCLA、西雅图华盛顿大学、北京外经贸大学、乔治亚理工和腾讯优图的论文“Large Language Model Agent: A Survey on Methodology, Applications and Challenges”。智体时代已经到来,大语言模型的革命性进步推动这一时代。大语言模型 (LLM) 智体具有目标驱动行为和动态适应能力,可能代表着通向通用人工智能的关键途径。本研究通过以方法论为中心的分类

2025-04-02 00:15:00 795

原创 ReBot:通过真实-到-模拟-到-真实的机器人视频合成扩展机器人学习

25年3月来自UNC Chapel Hill、robotics & AI inst 和西雅图华盛顿大学的论文“ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis”。视觉-语言-动作 (VLA) 模型通过直接在 Open X-Embodiment 等真实机器人数据集上训练策略,是一种有前途的范例。然而,现实世界数据收集的高成本阻碍了进一步的数据扩展,从而限制 VLA 的泛化。本文介绍 ReBot,一种

2025-04-01 00:15:00 1028

原创 DataPlatter:利用最少成本数据提升机器人操控的泛化能力

25年3月来自中科院计算所的论文“DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data”。视觉-语言-动作 (VLA) 模型在具身人工智能中的应用日益广泛,这加剧对多样化操作演示的需求。然而,数据收集的高成本往往导致所有场景的数据覆盖不足,从而限制模型的性能。大型工作空间中的空间推理阶段 (SRP) 占主导地位,导致失败的情况居多。幸运的是,这些数据可以以低成本收集,凸显利用廉价数据来提高模型

2025-04-01 00:15:00 860

原创 Trinity:模块化人形机器人 AI 系统

25年3月来自北京人形机器人创新中心和香港科大(广州分校)的论文“Trinity: A Modular Humanoid Robot AI System”。近年来,人形机器人的研究越来越受到人们的关注。随着各类人工智能算法的突破,以人形机器人为代表的具身智能备受期待。强化学习(RL)算法的进步大大提高人形机器人的运动控制和泛化能力。同时,大语言模型(LLM)和视觉-语言模型(VLM)的突破性进展为人形机器人带来更多的可能性和想象力。LLM使人形机器人能够从语言指令中理解复杂任务并执行长期任务规划,而VLM

2025-03-31 00:15:00 1109

原创 AhaRobot:一个用于具身人工智能的低成本开源双手移动机械手

25年3月来自天津大学的论文“AhaRobot: A Low-Cost Open-Source Bimanual Mobile Manipulator for Embodied AI”。在开放世界环境中的导航和操控,仍然是具身人工智能中尚未解决的挑战。商用移动操控机器人的高成本,严重限制其在现实场景中的研究。为了解决这个问题,本文提出 AhaRobot,这是一种低成本、完全开源的双臂移动操控机器人系统,其硬件成本仅为 1,000 美元(不包括可选的计算资源),不到流行移动机器人成本的 1/15。AhaR

2025-03-31 00:15:00 777

原创 CoinRobot:面向物理智能的通用端到端机器人学习

25年3月来自Zhicheng AI、北大和斯坦福的论文“CoinRobot: Generalized End-to-end Robotic Learning for Physical Intelligence”。物理智能在推进具身智能方面具有巨大的前景,使机器人能够从演示中获得复杂的行为。然而,要实现跨不同机器人平台和环境的泛化和迁移,需要精心设计模型架构、训练策略和数据多样性。同时,现有系统往往在可扩展性、对异构硬件的适应性和现实环境中的客观评估方面存在困难。CoinRobot 是一个通用的端到端机

2025-03-30 00:15:00 1035

原创 系统 0/1/2/3:多时间尺度具身集体认知系统的四元-过程理论

25年3月来自日本京都大学、立命馆大学、庆应义塾大学、东京大学、大阪大学和欧姆龙公司的论文“System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems”。本文介绍系统 0/1/2/3 框架,作为二元-过程(dual-process)理论的扩展,采用四元-过程(quad-process)认知模型。在系统 1(快速、直觉思维)和系统 2(慢速、深思熟虑思维)的基础上,结合系统 0

2025-03-30 00:15:00 919

原创 DexGrasp Anything:具有物理-觉察的普遍机器人灵巧抓取

25年3月来自上海科技大学的论文“DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness”。能够抓取任何物体的灵巧手,对于通用具身智能机器人的开发至关重要。然而,由于灵巧手的自由度高,物体种类繁多,以鲁棒的方式生成高质量、可用的抓取姿势是一项重大挑战。DexGrasp Anything,将物理约束有效地集成到基于扩散生成模型的训练和采样阶段,在几乎所有开放数据集上均实现最佳性能。此外,提

2025-03-29 00:15:00 1000 1

原创 COMPASS:通过残差强化学习和技能合成实现跨具身移动策略

25年2月来自 Nvidia、UC Berkeley 和 UT Austin 的论文“COMPASS: Cross-embOdiment Mobility Policy via ResiduAl RL and Skill Synthesis”。随着机器人越来越多地部署在不同的应用领域,可泛化的跨具身移动策略变得越来越重要。虽然经典的移动栈已被证明在特定的机器人平台上有效,但它们在泛化到新具身时带来了重大挑战。基于学习的方法,例如模仿学习 (IL) 和强化学习 (RL),提供了替代解决方案,但受到协变量漂移

2025-03-29 00:15:00 960

原创 GR00T N1:通才人形机器人的开放基础模型(上)

25年3月来自Nvidia的论文“GR00T N1: An Open Foundation Model for Generalist Humanoid Robots”。通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展显示出作为在人类世界中构建通才自主性硬件平台的巨大潜力。在大量多样化数据源上训练的机器人基础模型,对于使机器人能够推理新情况、稳健地处理现实世界的变化以及快速学习新任务至关重要。为此,Nvidia推出 GR00T N1,一种人形机器人的开放式基础模型。GR00T N1 是一种具有

2025-03-28 00:15:00 1586

原创 GR00T N1:通才人形机器人的开放基础模型(下)

25年3月来自Nvidia的论文“GR00T N1: An Open Foundation Model for Generalist Humanoid Robots”。通用机器人需要多功能的身体和聪明的头脑。人形机器人的最新进展显示出作为在人类世界中构建通才自主性硬件平台的巨大潜力。在大量多样化数据源上训练的机器人基础模型,对于使机器人能够推理新情况、稳健地处理现实世界的变化以及快速学习新任务至关重要。为此,Nvidia推出 GR00T N1,一种人形机器人的开放式基础模型。GR00T N1 是一种具有双

2025-03-28 00:15:00 708

原创 停止过度思考:大语言模型的有效推理综述(上)

25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推

2025-03-27 00:15:00 1224

原创 停止过度思考:大语言模型的有效推理综述(下)

25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推

2025-03-27 00:15:00 1072 1

原创 MoManipVLA:将视觉-语言-动作模型迁移到通用移动操作

25年3月来自北邮、南阳理工和清华的论文“MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation”。移动操控是机器人在日常生活中协助人类完成各种任务和环境所面临的基本挑战。然而,传统的移动操控方法由于缺乏大规模训练往往难以在不同任务和环境中泛化。相比之下,视觉-语言-动作 (VLA) 模型的最新进展已表现出深刻的泛化能力,但这些基础模型是为固定基座操控任务开发的。因此,本文提出一个高效的策

2025-03-26 00:15:00 831

原创 3D-ViTac:通过视觉-触觉感知学习精细操作

25年1月来自哥伦比亚大学、UIUC和华盛顿大学的论文“3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing”。摘要:触觉和视觉感知对于人类与环境进行细粒度交互都至关重要。为机器人开发类似的多模态感知能力可以显著增强和扩展它们的操作技能。 3D-ViTac,是一种专为灵巧双手操作而设计的多模态感知学习系统。系统采用配备密集传感单元的触觉传感器,每个传感单元覆盖 3mm^2 的面积。这些传感器成本低且灵活,提供详细而广

2025-03-26 00:15:00 784

原创 Cosmos-Reason1:从物理常识到具身推理(上)

25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具

2025-03-25 00:15:00 704

原创 Cosmos-Reason1:从物理常识到具身推理(下)

25年3月来自 Nvidia 的论文“Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning”。物理 AI 系统需要感知、理解和执行物理世界中的复杂动作。Cosmos-Reason1 模型,可以理解物理世界并通过长链思维推理过程以自然语言生成适当的具身决策(例如,下一步动作)。首先定义物理 AI 推理的关键能力,重点关注物理常识和具身推理。为了表示物理常识,用分层本体(ontology)来捕获有关空间、时间和物理的基本知识。对于具

2025-03-25 00:15:00 665

原创 LLM 后训练:深入探究大语言模型的推理(上)

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地与

2025-03-24 00:15:00 976

原创 LLM 后训练:深入探究大语言模型的推理(下)

25年2月来自阿联酋 MBUAI、UCF、UC Merced 和牛津大学的论文“LLM Post-Training: A Deep Dive into Reasoning Large Language Models”。大语言模型 (LLM) 已经改变自然语言处理领域,并为各种应用带来生机。对大量网络规模数据的预训练为这些模型奠定了基础,但研究界现在越来越多地将重点转向后训练技术,以实现进一步的突破。虽然预训练提供广泛的语言基础,但后训练方法使 LLM 能够完善其知识、改进推理、提高事实准确性,并更有效地

2025-03-24 00:15:00 1043

原创 统一的视频动作模型

25年3月来自斯坦福大学的论文“Unified Video Action Model”。统一的视频和动作模型对机器人技术具有重大意义,其中视频为动作预测提供丰富的场景信息,而动作为视频预测提供动态信息。然而,有效地结合视频生成和动作预测仍然具有挑战性,当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距,引入统一的视频动作模型(UVA),它联合优化视频和动作预测以实现高精度和高效的动作推理。关键在于学习联合视频动作潜表示和解耦视频动作解码。联合潜表示,连接视觉和

2025-03-23 00:15:00 1649

原创 SAMEO:分割任何物体 (即使被遮挡)

25年3月来自台湾清华、Nvidia 公司、台大和 Aeolus 机器人公司的论文“Segment Anything, Even Occluded”。非模态实例分割,旨在检测和分割图像中物体的可见和不可见部分,在自动驾驶、机器人操控和场景理解等各种应用中发挥着至关重要的作用。虽然现有方法需要联合训练前端检测器和掩码解码器,但这种方法缺乏灵活性,无法利用现有模态检测器的优势。为了解决这一限制,SAMEO,采用 Segment Anything 模型 (SAM) 作为多功能掩码解码器,能够与各种前端检测器接口

2025-03-23 00:15:00 1138

原创 ManiWAV:通过野外的音频-视频数据学习机器人操作

24年6月来自斯坦福大学、哥伦比亚大学和 TRI 的论文“ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data”。音频信号通过接触为机器人交互和物体属性提供丰富的信息。这些信息可以简化接触丰富的机器人操作技能学习,尤其是当视觉信息本身含糊不清或不完整时。然而,机器人操作中音频数据的使用,仅限于通过将麦克风连接到机器人或物体上来收集的遥控演示,这大大限制其在机器人学习流水线中的使用。这项工作引入 ManiWAV,一种

2025-03-22 00:15:00 719

原创 自适应柔顺性策略:扩散引导控制中学习近似的柔顺

24年10月来自斯坦福大学和 TRI 的论文“Adaptive Compliance Policy: Learning Approximate Compliance for Diffusion Guided Control”。柔顺性在操作中起着至关重要的作用,因为它可以在不确定的情况下平衡位置和力的并发控制。然而,当今的视觉运动策略往往忽视柔顺性,而只注重位置控制。本文介绍自适应柔顺性策略 (ACP),这种框架,从人类演示中学习针对给定的操作任务在空间和时间上动态调整系统柔顺性,改进以前依赖预选择的柔顺

2025-03-22 00:15:00 674

原创 大语言模型的长思维链推理:综述(上)

25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展

2025-03-21 00:15:00 1962

原创 大语言模型的长思维链推理:综述(下)

25年3月来自哈工大、中南大学、香港大学和复旦大学的论文“Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models”。OpenAI-O1 和 DeepSeek-R1 等推理大语言模型 (RLLM) 领域的最新进展,已在数学和编码等复杂领域展示其深刻的能力。它们成功的核心因素在于应用长思维链 (Long CoT) 特性,这可以增强推理能力并解决复杂的问题。然而,尽管取得了这些进展

2025-03-21 00:15:00 1120

原创 AnyTouch:跨多个视觉触觉传感器学习统一的静态动态表征

25年3月来自人大、武汉科技大学和北邮的论文“AnyTouch: Learning Unified Static-dynamic Representation Across Multiple Visuo-tactile Sensors”。视觉触觉传感器旨在模拟人类的触觉感知,使机器人能够精确地理解和操纵物体。随着时间的推移,许多精心设计的视觉触觉传感器已经集成到机器人系统中,帮助完成各种任务。然而,这些低标准化视觉触觉传感器的独特数据特性阻碍了强大的触觉感知系统的建立。解决这个问题的关键,在于学习统一的

2025-03-20 00:15:00 801

原创 PointVLA:将 3D 世界注入视觉-语言-动作模型

25年3月来自美的集团、上海大学和华东师大的论文“PointVLA: Injecting the 3D World into Vision-Language-Action Models”。视觉-语言-动作 (VLA) 模型利用大规模 2D 视觉语言预训练,在机器人任务方面表现出色,但它们对 RGB 图像的依赖,限制对现实世界交互至关重要的空间推理。使用 3D 数据重训练这些模型在计算上是无法承受的,而丢弃现有的 2D 数据集会浪费宝贵的资源。为了弥补这一差距,PointVLA,使用点云输入增强预训练 V

2025-03-20 00:15:00 1192

原创 OctoTools:一个具有复杂推理可扩展工具的智体框架

25年2月来自斯坦福大学的论文“OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning”。解决复杂的推理任务可能涉及视觉理解、域知识检索、数值计算和多步骤推理。现有方法使用外部工具增强大语言模型 (LLM),但仅限于专业领域、有限的工具类型或需要额外的训练数据。本文的 OctoTools,是一个无需训练、用户友好且易于扩展的开源智体框架,旨在解决跨不同域的复杂推理。OctoTools 引入标准化工具卡来封装工

2025-03-19 00:15:00 1226

原创 Mobile-Agent-V:通过视频引导的多智体协作学习移动设备操作

25年2月来自北京交大和阿里巴巴公司的论文“Mobile-Agent-V: Learning Mobile Device Operation Through Video-Guided Multi-Agent Collaboration”。移动设备使用量的快速增长,迫切需要改进自动化以实现无缝任务管理。然而,因缺乏操作知识,许多人工智能驱动的框架举步维艰。手写知识虽然有帮助,但劳动强度大、效率低下。为了应对这些挑战,Mobile-Agent-V,利用视频指导为移动自动化提供丰富且经济高效操作知识。

2025-03-19 00:15:00 1029

原创 探索具身多模态大模型:开发、数据集和未来方向(上)

25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴架

2025-03-18 00:15:00 1586

原创 探索具身多模态大模型:开发、数据集和未来方向(下)

25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。近年来,具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展,包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型,同时也研究其他新兴

2025-03-18 00:15:00 1051

原创 Gemma 3 技术报告

Gemma 3,是 Gemma 系列轻量级开放模型中的多模态成员,其规模从 10 亿到 270 亿个参数不等。此版引入视觉理解能力、更广泛的语言覆盖范围和更长的上下文(至少 128K 个tokens)。还更改模型的架构,减少在长上下文中往往会爆炸的 KV-缓存内存。这是通过增加局部与全局注意层的比例并保持局部注意的跨度较短来实现的。Gemma 3 模型经过蒸馏训练,无论是预训练版还是指令微调版,其性能都优于 Gemma 2。特别是,后训练方法显著提高数学、聊天、指令遵循和多语言能力,使 Gemma3-4B-

2025-03-17 00:15:00 1391

原创 Gemini Robotics:将人工智能带入物理世界

25年3月来自谷歌的技术报告“Gemini Robotics: Bringing AI into the Physical World”。大型多模态模型的最新进展,已使数字领域出现卓越的通才能力,但将其转化为机器人等物理智体仍然是一项重大挑战。一般有用的机器人需要能够理解周围的物理世界,并与之进行有效和安全的交互。本报告介绍专为机器人设计并建立在 Gemini 2.0 基础上的AI 模型系列。Gemini Robotics,是一种能够直接控制机器人的视觉-语言-动作 (VLA) 通才模型。Gemin

2025-03-17 00:00:00 1222 1

原创 TidyBot++:用于机器人学习开源的完整移动机械手

24年12月来自普林斯顿、斯坦福和 dexterity.ai 的论文“TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning”。要充分利用模仿学习在移动机械操作方面的最新进展,需要收集大量人工引导的演示。本文提出一种开源设计,用于设计一种廉价、坚固、灵活的移动机械手,该机械手可支撑任意臂,从而实现各种现实世界的家用移动机械操作任务。至关重要的是,设计使用动力脚轮,使移动基座是完全完整的,能够独立且同时控制所有平面自

2025-03-16 00:15:00 549

原创 行为机器人套件:简化日常家庭活动中真实世界的全身操控

25年3月来自斯坦福李飞飞团队的论文“BEHAVIOR ROBOT SUITE: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities”。现实世界的家务任务对移动机械操作机器人提出了重大挑战。对现有机器人基准的分析表明,成功的任务执行取决于三个关键的全身控制能力:双手协调、稳定和精确的导航以及广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此产生的系统复杂性使视觉运动策略学习进一步复

2025-03-16 00:15:00 921

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除