具身大脑风云榜！盘一盘国内外具身大脑的灵魂人物们...

最新推荐文章于 2025-12-04 15:03:47 发布

转载最新推荐文章于 2025-12-04 15:03:47 发布 · 223 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247679200&idx=3&sn=65384443948c4712ee0847a248e0434e&chksm=cf0d035a0727f94cf6fe8ac24d077a8e18242760add25c4f42eba6dc19bb1f9753514c427d77&scene=126&sessionid=0

文章标签：

#人工智能

点击下方卡片，关注“具身智能之心”公众号

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

当前，具身智能已成为全球的新焦点，如何打造一个通用的本体和大脑是各个创业公司一直努力突破的，更是受到资本和产业界的高度关注。

我们今天为大家全面梳理具身大脑领域的国内外知名公司，深入分析其技术特点、产品布局和应用场景，为公司提供行业全景图，助力战略决策和业务拓展。

重点关注：聚焦于开发机器人 "大脑" 系统的企业，包括具身大模型、多模态感知决策系统等。

（一）国内公司

自变量机器人（CEO 王潜）

公司简介：成立于 2023 年，聚焦 “通用具身大模型” 研发，以真实世界数据为主要数据来源构建具备精细操作能力的通用机器人。在技术路线上更偏向于 “大脑”，从一开始就坚持走端到端的具身通用大模型路线。成立不到两年，已完成 8 轮融资。
代表成果：
- WALL - A模型：2024 年 10 月推出全球目前最大参数规模的具身智能通用操作大模型Great Wall 系列（GW）的WALL - A模型，能整合视觉、语言与运动控制信号，实现从感知到执行的完整闭环，跨任务泛化能力出色。
- 开源具身智能基础模型Wall-OSS：具备强大的泛化性和推理能力。

星海图（CEO 高继扬）

公司简介：2023年9月成立，在具身智能领域专注于提供智能导航等大脑相关技术方案，坚持 “一脑多形”理念，为机器人在复杂环境中的自主行动提供支持，通过构建环境地图、路径规划等功能，赋予机器人 “思考” 如何在空间中移动和完成任务的能力。
代表成果：
- 具身基础模型EFM-1：采用“快-慢双系统”模型架构，实现从感知理解到控制的闭环决策。
- 3D扩散策略DP3：仅需10次人类演示即可让机器人学会复杂操作任务，真实场景成功率高达85%。
- 空间智能引擎RSR：全球首个real2sim2real引擎，实现低成本三维环境重建与仿真训练，支撑机器人精准导航、避障与操作规划。

优必选（CEO 周剑）

公司简介：优必选成立于 2012 年，是全球人形机器人商业化的领导者，拥有全栈自研能力，包括运动控制、关节模组、AI-Embodied 系统等。作为国内人形机器人领域的标杆企业，优必选已在全球市场建立了广泛的品牌影响力和市场份额。
代表成果：
- Thinker大模型：2025年，优必选自主研发的百亿参数基座多模态大模型Thinker，在机器人感知与规划领域三大国际权威基准测试（MS COCO Detection Challenge、RoboVQA、EgoPlan-Bench2）中斩获四项全球第一，显著提升机器人在复杂环境下的感知、语义理解和长程任务规划能力。

智元机器人（创始人彭志辉）

公司简介：智元机器人成立于 2023 年 2 月，是一家聚焦 AI 与机器人深度融合的创新企业，致力于打造世界级领先的通用具身智能机器人产品及应用生态。
代表成果：
- 智元启元大模型（Genie Operator-1）：2025年3月发布，基于Vision-Language-Latent-Action（VILLA）架构，融合多模态大模型（VLM）与混合专家（MOE）技术，具有小样本快速泛化能力，任务成功率较市面模型提升32%，支持“一脑多形”的跨本体应用。
- "具身智脑" 分层系统：包括云端超脑、大脑、小脑、脑干等几部分，分别负责任务级、技能级、指令级、伺服级的任务，形成完整的控制体系。

银河通用（创始人王鹤）

公司简介：银河通用成立于 2023 年 5 月，作为具身智能领域的标杆企业，其核心技术与产品构建了三大技术壁垒，在合成数据驱动的多模态大模型方面，银河通用自主研发全球首个“通用具身大模型”（VLA模型），采用“大脑+小脑”协同框架。
代表成果：
- GraspVLA：全球首个端到端具身抓取基础大模型，展示了无需大规模真实数据、仅通过合成数据达到基础模型预训练的能力。
- GroceryVLA 模型：首款面向零售商业化的端到端大模型，支持复杂零售场景下的精准商品识别与取送。
- TrackVLA：产品级纯视觉端到端导航大模型，支持自然语言指令驱动，具备零样本泛化能力，显著提升了机器人在复杂环境中的导航能力。

千寻智能（创始人韩峰涛）

公司简介：千寻智能成立于 2024 年，是国内领先的 AI + 机器人全栈生产力级技术能力的具身智能公司。团队成员来自顶尖高校和知名企业，在具身智能领域拥有深厚的技术积累和创新能力。
代表成果：
- Spirit V1 VLA模型：国内首个攻克柔性物体长程操作难题的AI模型，通过视觉-语言-动作（VLA）融合，实现自然语言指令驱动的复杂任务（如叠衣服），支持多任务泛化，打破传统机器人依赖预设程序的局限。

星动纪元（创始人陈建宇）

公司简介：星动纪元是一家由清华大学交叉信息研究院孵化，研发具身智能以及通用人形机器人技术和产品的新兴科技公司。聚焦于通用人工智能(AGI)前沿应用，致力于研发适应宽领域、多情景、高智能的通用人形机器人，努力实现智能机器人走进千家万户，融入万家灯火的美好愿景。
代表成果：
- 端到端原生机器人大模型ERA-42：国内首个端到端原生具身大模型，具备强大的泛化能力，支持机器人完成超过100种动态任务，如使用不同工具完成新任务。该模型通过视频训练，能快速学习技能，降低数据采集成本，并实现跨任务、跨本体迁移。

逐际动力（创始人张巍）

公司简介：逐际动力聚焦具身智能机器人的研发与制造，围绕本体硬件设计制造、基于强化学习的全身运动控制、具身大脑训练范式三大核心技术，构建具身Agent开发工具链，推动具身智能在科研、制造、商业、家庭等领域的应用。
代表成果：
- LimX VGM：具身智能操作算法，利用视频生成技术推动具身大脑突破，提升数据训练和算法性能的转化效率，为人形机器人学习能力和泛化性的实现奠定重要基础。
- LimX DreamActor：全新的具身智能训练范式，首次实现了 Real2Sim2Real、模仿学习和真机强化学习的深度结合，全面解锁仿真数据和真机数据在具身智能训练中的优势。

穹彻智能（创始人卢策吾）

公司简介：聚焦“以力为中心”的具身智能大模型和相关基础设施研发，为不同行业提供通用机器人智能解决方案。穹彻具身大脑（Noematrix Brain）结合先进算法和数据支持，具备指令推理、任务规划、物体分类、环境感知、自主导航等全闭环能力。
代表成果：
- 穹彻具身大脑（Noematrix Brain）：由实体世界大模型和机器人行为大模型组成，前者负责物理常识学习，后者通过力反馈实现决策与操作，支持端到端联合训练。Noematrix Brain 2.0：新增实体概念学习能力，支持3D模仿学习框架和视-触觉融合网络，提升机器人对复杂任务的适应性。

智源研究院

公司简介：成立于2018年11月，核心目标是聚焦人工智能原始创新和核心技术，推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破。
代表成果：
- RoboBrain 2.0：是新一代具身视觉-语言基础模型，以70亿和320亿参数的两种规格，实现了感知、推理与规划能力的统一。它在空间理解、时间决策等核心任务上超越现有开源与专有模型，为通用具身智能体的发展奠定了基础。

（二）国外公司

Figure AI

公司简介：是一家总部位于美国加利福尼亚州硅谷的机器人初创公司，成立于 2022 年，致力于开发具备人工智能能力的人形机器人，以解决劳动力短缺、危险工作环境和老龄化社会等问题。
代表成果：
- Helix：是一个通用的视觉-语言-动作（VLA）模型，采用独特的“双系统”AI架构，模仿人类“直觉”和“思考”的认知模式，两个系统通过端到端训练进行高效沟通，协同工作，使得机器人既能快速响应，又能理解复杂的指令。克服了传统人形机器人在执行多样化任务时面临的限制。

Physical Intelligence

公司简介：Physical Intelligence 是一家美国的具身大脑初创公司，成立于 2023 年 1 月。公司专注于开发能够为各类机器人和机器添加高级智能的软件，希望将用于构建语言模型的技术与控制和指导机器的技术相结合，最终目标是创建一个通用机器人系统的人工智能。
代表成果：
- π0 模型：2024 年 10 月 31 日，Physical Intelligence 发布了成立以来首个机器人通用的机器人基础模型 π0，包括一个预训练的VLM 模型和一个采用条件流匹配技术的动作专家模型。采用了预训练+ 后训练（微调）的模式，以达到所需的精细控制能力。
- π0.5 模型：近几日新开源，是继π0之后的全新升级版本，采用了“知识隔离”的训练方法，大幅提升了开放世界场景下的泛化能力，被视为通用机器人领域的重要进展。

谷歌DeepMind

公司简介：是谷歌旗下专注于人工智能研究的部门，由DeepMind和Google Brain于2023年合并而成。聚焦于通用人工智能（AGI）的研究，致力于开发能够理解和适应物理世界的智能系统，推动人工智能在医疗、科学、机器人等领域的应用。
代表成果：
- Gemini Robotics：基于Gemini 2.0的视觉-语言-动作（VLA）模型，可直接控制机器人执行复杂任务，具备通用性、交互性和灵巧性。例如，机器人无需专门训练即可完成折纸、系鞋带等精细操作，还能理解自然语言指令并实时适应环境变化。
- Gemini Robotics-ER：专注于具身推理（Embodied Reasoning），增强机器人对空间和物理世界的理解能力。该模型可生成代码和规划动作轨迹，帮助机器人在复杂环境中安全执行任务，如抓取物体、规划路径等。
- Project Astra：概念AI助理，集成Gemini技术，通过摄像头和传感器理解物理环境，提供语音、视觉交互服务，如识别物体、解释代码、提醒物品位置等，体现了具身智能在人机交互中的应用。

英伟达

公司简介：是一家全球领先的图形处理器（GPU）设计公司，成立于1993年。最初以设计高性能显卡闻名，如今已发展为涵盖芯片设计、系统平台、软件生态、云计算服务、人工智能解决方案的全栈计算公司。
代表成果：
- Eureka：Eureka系统基于GPT-4 打造，可自动训练实体机器人的动作指令，可支持机器人实现30 余种复杂动作。另外，Eureka具备零样本生成、编写代码和语境改进等能力，可对强化学习的奖励设计流程、代码进行大幅度优化，达到人类专家级水平。
- GR00T N1开源模型：采用双系统架构，包括快速反应的“系统1”和认知决策的“系统2”，实现接近人类的运动控制能力。支持跨平台迁移学习，可适应多样化操作场景。模块化设计和可扩展性为规模化部署提供便利。

Skild AI

公司简介：是美国目前领先的机器人“大脑”研发企业，目标研发一套通用的机器人操作系统，能够帮助机器人理解不同的应用场景并驱动机器人自主实现智能的精细化操作。同时这套系统还能被应用于不同形态的机器人之上。
代表成果：
- Skild Brain：通过摄像头图像和关节反馈直接控制机器人动作，无缝调整机器人行为，无需硬编码。采用了分层架构：用低频率的高层动作策略为高频率的低层动作策略提供输入，而且适用于各种四足机器人、人形机器人、桌面机械臂、移动机械手等。

Covariant

公司简介：一家专注于为机器人构建基础 AI 模型的公司。技术依赖于机器人与现实世界的交互产生的体验和反馈。
代表成果：
- RFM-1：是当时世界上首个基于真实任务数据训练的机器人大模型，也是最接近于解决真实世界任务的机器人大模型。RFM-1是一个参数80亿的transformer模型，自回归的预测下一个token。支持任何模态的输入、预测任何模态的输出。

知名团队

Meta和CMU联合打造：
- RoboAgent：其核心在于多任务动作分块Transformer（MT-ACT）架构，通过在现有机器人经验的基础上创建一个多样化的语义增强集合来倍增离线数据集，并采用一种具有高效动作表示法的新型策略架构，以在数据预算范围内恢复高性能策略。
Stanford 李飞飞：
- VoxPoser：VoxPoser 的核心思想是通过利用VLM和LLM的常识知识，借助模型生成代码，将常识知识映射到三维空间来供运动规划器使用，用于零样本合成日常操纵任务的轨迹，从而实现在真实世界中的零样本机器人操纵。