昨晚科技圈炸锅！那个放弃华为201万年薪的学霸，造出了会学习的机器人

算家计算

于 2025-03-11 17:41:00 发布

阅读量466

点赞数 4

CC 4.0 BY-SA版权

分类专栏：话题文章文章标签：算家云人工智能算力租赁国产AI Go-1 具身机器人智元机器人

本文链接：https://blog.youkuaiyun.com/SJJS_1/article/details/146183840

145 篇文章

订阅专栏

今天早上刷微博，被一条消息惊到了——那个传说中的"华为天才少年"稚晖君，带着他的智元机器人团队，发布了全球首个通用具身基座大模型 GO-1（Genie Operator-1）。

GO-1 大模型，本质上是在给机器人装一个会自我升级的数字大脑，增强了机器人的 AI 能力。这个大脑不仅看得懂说明书，还能刷抖音学手艺——团队让 AI 系统看了海量人类操作视频，从厨房小白到工厂老师傅的手艺全给"偷师"了。

如果说以前教机器人倒水得像训练宠物，手把手教几百遍。现在只要给 Go-1 看几个人类倒水的视频，再给看几个机器人翻车的案例，它自己就能举一反三。测试数据显示，新模型在倒水、收拾餐桌这些日常任务里，成功率直接从46%飙升到78%，相当于从学渣变学霸。

现场演示视频里有个细节很有意思：机器人倒水时被人故意挪动水杯，它居然能实时调整动作轨迹。团队解释说，这要归功于模型里的"隐式规划器"，相当于人类做事时脑补的"如果...就..."预判能力。

而这背后的黑科技来源于智元团队创新性提出的 ViLLA 架构。

与 VLA 架构相比，ViLLA 通过预测 Latent Action Tokens（隐式动作标记），弥合图像-文本输入与机器人执行动作之间的鸿沟。它能有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据，增强策略的泛化能力。

例如，给出指令“挂衣服”，模型会激活大脑里的"家务知识库"——那些被它反复观摩的上万次人类晾衣视频开始自动检索。接着在"脑子"里预演整个流程，最后执行这一连串的步骤。

你可以理解为组了个学霸团队：视觉专家负责看懂现场状况，规划专家脑补操作步骤，执行专家控制每个关节动作。最妙的是这三位专家能共享记忆——看过的人类视频、仿真数据、真机操作记录全存在一个"知识库"里，遇到新任务就开圆桌会议商量对策。

目前，智元已经给自家机器人装上了这个大脑，生产线上的机械臂现在能上午组装手机，下午去打包快递，晚上还能自学个拉花咖啡。

这可能意味着三个颠覆性变化：机器人将从"流水线工具人"变身"全能打工人"；从只能在实验室走猫步进化到能应对真实世界的突发状况；最可怕的是它们开始能听懂人话——你说"把客厅收拾下"，它能自己规划出扫地、整理、倒垃圾一条龙服务。

但也有人认为这波爆火言过其实—— “真正的AGI，需要看泛化性”。

泛化能力是指 robotics 能够将从训练数据中学到的知识应用到新场景或未见过的任务的能力。在模仿学习和强化学习中，泛化能力往往是最重要的瓶颈。

有网友认为，从智元机器人发布的几个视频来看，有些关键性的镜头动作连贯性有所缺失，可能在泛化能力方面还存在一定不足，但人形机器人赛道，动作展示得再完美，也只是说明控制做得好，距离真正的 AGI，还是有一定距离。

总而言之，这个“天才少年”，已经用 Go-1 证明了他在 AI 领域的再一次突破。至少，人形机器人赛道，距离 AGI 又进了一步。

这次发布最震撼的，其实不是炫技式的参数堆砌，而是让我们看到：当机器人开始具备持续学习能力，人与机器的关系，可能要重新定义了。

大家有什么看法呢？欢迎在评论区留言讨论~