我是真没想到,今年大火的Agent能力可以这么快的迁移到机器人。
先用最通俗的话解释下Agent是干嘛的:
Agent其实就是个工具,底层有各种各样的能力。有点像包工头指挥着泥工、瓦工等。也像是前端时间爆火鸡排哥的名言:做完你的做他的。
总结下来就是用来调度规划各种能力,比如豆包里面有画图模型、写文章模型等等。
而今天看到的这家初创公司flexion,就是用了Agent的思想来做机器人。
你肯定没听过,其实我也没听过。
简单的讲,就是把自动导航、运动控制、VLA自主抓取等过程都结合在一个统一的Agent的框架中。
能够实现非常长距离的移动、导航、抓取等一系列运动。
之前没有一家公司能完整的展示这个过程,比如特斯拉拿电池、爆米花这都是VLA自主操作过程,在园区行走这是自主导航,打功夫这是强化学习运动控制。但都是分场景展示的。
FigureAI、国内的这些企业也都是同理,总之都是没见过融合模式下的展示。
以下是他们的展示视频,一刀未剪,非常的惊艳,但还不够丝滑。
一、Agent是怎么用进来的
最开始的时候给模糊指令:请捡起来所有的玩具,并把他们给放在篮子里面。
难点在于玩具被分散在不同的地方,机器人需要进行导航 + 行走 + 操作的过程。
然后机器人就开始认真分析需求,并进行规划:
1)推理过程:发现玩具在左前方,将导航过去。调用:导航函数。

当经过重重障碍,终于到了粉色玩具面前的时候,这个时候机器人开始思考,要换下一个动作来调用。
这个时候就换到了VLA中的识别抓取函数,进行粉色玩具的抓取。
2)调用VLA的抓取函数。

完成这个动作以后,机器人又开始执行下一步的推理,发现了新的目标,蓝色玩具。
3)推理链路为:我已经捡起来了粉色玩具,蓝色的玩具在楼梯的正上放,这会是我下一个目标。接着就开始继续导航。调用的是导航行走函数。

完成这个任务后,机器人没有发现新的执行对象,又看到了篮子。
4)他的推理过程就变成了往篮子去出发,接着执行导航的过程。

5)到达篮子以后,开始调用VLA的放下玩具的动作。

这样就通过Agent完成了整体的导航 + VLA + 运动控制,也是今年看到了非常极少数一刀未剪的demo过程。
二、这意味着什么
其实写到这里,很多人可能会觉得很简单,这不就是个Agent吗?
旁边软件圈都玩烂了。
是的,AI圈里面Agent最近已经疯了,gemini3已经可以手搓应用,蚂蚁的灵光甚至可以一键生成APP。
但我从这里面看到的是技术趋势的融合,也就是机器人圈换一个Agent,可以换成现在最新的GPT5、谷歌Gemini3,会让整个机器人的大脑理解能力跃上一个新的台阶。
Agent的好处就是不必融合成一个任务。
现在VLA + RL的思路是能不能把双足控制 + 自主操作咖啡、叠衣服等能力融合进一个模型,直接端到端的输出。
这样的思路是第一性原理,但实现起来非常非常的难。这个时候Agent就有了用武之地。
Agent在这里面扮演的就是一个包工头,可以在不同的时候调用不同的能力。举个例子:我10分钟前在走路,现在在键盘前打字,不同的时间段都是单一存在的状态,只执行一种操作。
三、公司自己认为的三大贡献点?
以下为公司PR内容:https://flexion.ai/news/flexion-reflect-v0-towards-generalizable-robot-autonomy
当收到 “捡起玩具并放入篮子” 这类用户指令时,Agent会将任务拆解为原子级动作,筛选适配的工具,并对这些动作进行连贯排序。
- 感知集成
该智能体借助基于开放词汇的分割技术,从视觉输入中精准识别相关目标物体。这些检测结果会被持续追踪,并在三维空间中完成定位锚定,从而构建出稳定可靠的环境参考体系。
- 工具编排
各类动作(如物体检测、移动至目标位置、拾取与放置物品等)均通过可调用的 API 执行。LLM 会基于场景理解进度与任务完成状态,智能决策每个 API 的调用时机与执行方式。
这一架构清晰划分了机器人 “应做什么” 与 “该如何做” 的边界,最终形成一套 “语言驱动意图、物理法则保障可行性” 的控制堆栈。

- 硬件集成
硬件方案采用了车载控制与云端推理相结合的混合架构。

车载系统会接收来自云端 VLM 代理的指令,并将其转换为关节空间动作;机器人前端装配的 ZED 立体相机提供 RGB-D 传感能力,支持Agent完成物体检测,并在三维空间中对目标进行精准锚定。
四、写在最后
这家公司刚刚成立,11月份刚获得英伟达的5000万美元融资。
我想说,其实AI已经加速了人类的进程。
之前创业对于很多人而言遥不可及,但现在有了AI能力的加持,你只靠调用别人的API,就会有很大的故事空间。
人和人的距离会被放大,有灵感的人靠 AI 如虎添翼,没灵感的只能望尘莫及。
没想到,AI时代最可贵的居然是 思路。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

1060

被折叠的 条评论
为什么被折叠?



