作者 | 李众力 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1988250685406479372
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
这两年“具身智能”很热。热到一个现象越来越常见:一提具身智能,很多人脑子里立刻浮现人形机器人;一谈商业化,讨论就自动切换到“什么时候能有一台全能保姆机器人走进千家万户”。仿佛只有等到单体足够通用、足够聪明、足够可靠,而且最好完全无人,才配谈规模化。
但如果把镜头从“单体能力”挪到“商业路径”,会更容易看到另一条更现实的路线:具身智能的第一波商业化,很可能不会等到完美单体,而会像自动驾驶一样,先把一套体系跑通,再让单体在运营中持续变强。
所谓“体系”,不是一句口号,而是一套可复制的链路:现场有能动手的物理执行单元,大部分时间自动完成高频流程;少数关键卡点允许远程短时介入兜底;云端提供更强的模型能力(VLA/多模态/规划与质检),按需付费、持续升级;全流程可审计、可追责、可复盘;数据回流反哺模型与流程,让远程介入越来越少、越来越短;最终提升一个人覆盖多个智能体的能力(NVM),把成本摊薄到商业化成立的区间。
把这条链路看清楚,再回头看“从自动驾驶到具身智能”,会发现变化的不是“有没有人形”,而是同一套方法论在扩场景:从“开车”扩展到“干活”,从“道路”扩展到“家庭、楼宇、园区、城市服务”,从“车辆”扩展到各种机器人与物理执行单元。
1. 先看一个正在发生的铺垫:无人物流车为什么被称为“爆发前夜”
无人物流车/无人配送车的关键,并不只是“车会自己开了”。更重要的是,它在商业上把“开车”这件事改造成了一种可远程接入的服务:
大部分时间:车辆在限定场景里自己跑,系统完成常规行驶;
少数关键时刻:复杂路口、临停装卸、非标障碍、临时管制、极端边界,由远程人员短时接入兜底。
这一步非常关键:驾驶不再是“必须在场的劳动”,而变成“按需插针的远程服务”。远程人员不需要全程盯一台车,只在必要时介入几十秒到几分钟。只要插针越来越少、越来越短,一个远程人员能覆盖的车就越来越多,人车比(1 对 N)提升,单位成本才可能掉头向下。
而无人物流的规模化收益,也并不只来自“车更聪明”,还来自“运营更会摊成本”:
拓市场:从一城一域复制到更多城市/区域;
拓规模:车越多、订单越多,调度、远程兜底、运维体系越能共享;
降一点成本:不是追求一次性完全无人,而是持续压低介入频次、介入时长、恢复时间;
跨区域摊平差异:不同地区的人力与运营成本差异,可以通过远程能力与统一调度体系被摊平,形成更稳定、可复制的商业模型。
这就是典型的“体系先跑通”。而具身智能的商业化,很可能就是把这套模式迁移到更广泛的物理世界任务里。
2. 具身智能不等于人形机器人:商业化看的不是形态,而是成本结构与可治理性
人形机器人当然重要:腿能解决轮式到不了的“最后 100 米”,按电梯、开门、跨越障碍等动作更贴合人类环境默认接口。近年来下半身控制能力的成熟,也让“能走、能稳、能越障”的门槛明显下降。
但商业化先看成本结构:稳定交付、一致性、风险边界、责任治理、成本曲线。形态再像人,如果每做一单都要一个人全程盯着、全程遥控,成本结构就不成立。
更关键的是,真实世界永远有长尾。问题不在长尾是否存在,而在长尾能不能被“流程化、治理化”:触发条件是什么?远程介入开放哪些视角与权限?如何留痕审计?出了问题怎么追责?如何复盘并沉淀到模型和流程里?这些能力决定了体系能否扩张,也决定了商业化能否成立。
因此更现实的判断是:具身智能最先规模化的,往往不是“最像人”的那种,而是“最能把体系跑通”的那种。 人形机器人会越来越重要,但它不是商业化的唯一入口,更不是商业化的前置条件。
3. 这套“体系”到底包含什么:把具身智能拆成五层就清晰了
为了避免概念乱用,可以把具身智能体系拆成五层(这五层和自动驾驶的产业结构高度同构):
第一层:物理执行单元(在现场“动手”)
可以是轮式+机械臂、四足、人形、半人形,也可以是固定机械臂与家庭执行器网络(门锁、阀门、开关、升降等)。关键不是形态多酷,而是:覆盖一批高频动作、稳定、可维护、可量产、能复制。
第二层:端侧底座能力(实时、安全、断网可用)
基础感知、低级控制、安全刹停、局部避障导航、状态监测等。这层追求的是“够用、稳定、可控”,而不是“在本地塞进最强大脑”。
第三层:云端高能力(更聪明、更泛化、可迭代)
复杂语义理解、跨任务规划、长程任务编排、复杂异常归因、策略生成、质检复盘、知识更新、模型持续优化等。这里的关键词不是“部署一次就完”,而是“服务化、持续升级、按需付费”。
第四层:远程介入与调度(把长尾从事故变成流程)
远程不是为了长期遥控,而是为了短时插针。更重要的是插针要被系统化:触发、权限、留痕、追责、复盘、沉淀。
第五层:运营治理与数据闭环(让系统越跑越稳)
调度、运维、培训、质检、保险与责任边界、合规审计、事故处置流程,决定体系能否规模化。数据闭环则决定插针能不能越打越薄、人机比能不能越做越高。
这五层一旦连起来,所谓“人机共生”才从一句趋势判断,变成了一个可运营的产业结构:人不消失,但从持续劳动者变成稀缺的异常处理资源与运营资产;系统越跑越稳,人力越“高杠杆”。
4. NVM(一个人覆盖多个智能体)为什么重要:它决定成本能不能被摊薄
很多人提 NVM,会把重点放在“远程操作很酷”。但 NVM 的本质不是酷,而是成本结构是否成立。
要让一个人覆盖多个智能体成立,需要满足三个条件:
1)把持续操作变成短时插针:人只在关键节点介入,而不是全程接管。
2)把插针门槛做低:远程介入更像给目标、给确认、给少量动作,而不是高强度精细操控。
3)把插针结果变成资产:每一次插针都沉淀为训练数据、流程模板、质检样本,推动下一轮减少插针。
VR/AR、手柄、空间对齐等技术的价值也在这里:不是为了炫酷,而是降低操作的心智负担,把复杂操作变成更低维、更可训练的交互;现场执行单元负责避障、越障、稳定控制,远端做高层意图与关键动作。远程人力才能像“云服务”一样被调度和共享,而不是被一台设备绑死。
5. 家政为什么是“最难但也最典型”的场景:不需要等全自主,先把服务关系重构掉
家政是典型的长尾地狱:家庭环境非结构化、物体种类多、摆放随意、任务碎、交互复杂,还叠加隐私与信任问题。但家政同时也是刚需大市场——越难,反而越能检验“体系”的价值。
如果把前提设定为“家政机器人必须完全自主完成所有任务才能落地”,那商业化会被卡很久。但体系化路径是:把家政服务从“陌生人上门”重构为“远程任务化服务 + 现场执行单元”。
用户下单不再是“请一个人来家里干活”,而是一张张任务单:
台面整理、餐具归位
玩具收纳、垃圾分类
做饭流程中的标准步骤(洗切配、上锅、收尾清洁)
安全确认(燃气阀门、门窗、电源)并生成记录
执行单元先把能稳定做的大部分完成:移动、避障、抓取放置、简单清洁、按固定流程操作家电。真正难的那 1%(阀门型号千奇百怪、门把手结构多样、抽屉卡住、触控面板反光识别不准等),由远程人员短时插针解决,完成后立刻退出,让系统回到自动流程。
这套模式还有一个被低估的好处:它把传统家政的信任风险重新组织了。传统上门服务存在“人进屋”的不确定性;而远程任务化服务是权限可控、过程可审计的服务供给。平台上可以出现不同技能水平的远程服务人员(会做饭、会整理、会维修),但操作对象始终是家里同一个执行单元,服务关系更稳定、更可追责,甚至更容易沉淀出“家庭偏好档案”和“任务模板”。
此外,家庭成员自己也能成为“远程服务供给”的一部分:例如出门后忘关煤气、忘关电器,完全可以用便携控制设备远程确认或短时处理;或者把任务下放给平台,让远程服务人员接单解决。就像网约车把“开车这件事”平台化之后催生了多样化服务供给一样,家庭端的物理执行单元一旦普及,也会催生更丰富的服务产品形态。
6. 隐私与信任怎么过关:靠机制,不靠口头承诺
远程介入一出现,隐私与安全就会被放大讨论。这是正常的,也必须正面回答:远程人员能看到什么?能做什么?出了事怎么算?
可规模化的做法不是“直播”,而是受控窗口 + 匿名化 + 证据链:
敏感区域默认不开放或只开放局部视野
人脸、照片墙、证件、门牌号、窗外地标等自动遮挡
变声、头像替换、背景模糊等匿名化手段,让“能操作”与“能识别身份”分离
最小权限:按单授权,任务结束自动回收
全程留痕:视频/指令/关键帧审计,可回放、可追责、可复盘
AIGC 相关技术的进步,让匿名化与受控展示更容易做到工程化落地:看得到完成任务所需信息,但看不到身份与敏感细节。规模化服务最需要的不是“保证永远没事”,而是“出了事能说清、能追责、能改进”。
7. 不止无人物流:清洁、巡检、政务服务等场景,本质上都是同一套路线
具身智能最先落地的场景,通常具备一些共同特征:高频、任务可拆解、流程可标准化、环境相对可控、易审计易复盘。因此它不会只发生在家庭,也不会只发生在无人物流:
城市清洁车、扫地机器人:高频任务,异常可插针
园区巡检、楼宇运维:流程明确、路径稳定、易审计易复盘
政务/服务机器人:大量问题是交互长尾,远程兜底能把服务做稳定
商场、酒店、医院等服务场景:任务模板化程度高,更适合体系先跑通
“腿/四足/人形”的价值会在这些场景中逐步显现:不是为了更像人,而是为了覆盖更多现场环境,把轮式到不了的地方纳入执行范围,减少必须人工到场的比例。
8. 算力这件事,决定了具身智能会不会“像手机一样普及”
很多人聊具身智能时默认一个前提:每台设备都得在本地跑一个特别大的模型。但从商业化角度看,这个前提反而经常不成立。
更自然、也更容易规模化的方式是:本地算力 + 云端算力分层,并形成市场化分档。
本地侧负责实时、安全、断网可用的底座:基础感知、低级控制、安全刹停、局部避障导航等。追求“够用、稳定、可控”。
云端侧负责更强的理解与泛化:复杂语义理解、跨任务规划、长程任务编排、异常归因、策略生成、质检复盘、知识更新等。追求“强大、可迭代、可升级、按量付费”。
于是自然出现“不同价格对应不同体验”的市场化分层:
用户可以买低本地算力版本保证基础可用,也可以买更强云端能力套餐获得更少插针、更高一致性、更强复杂任务处理能力。价格由市场决定,而不是由“每台都得顶配”的工程理想决定。
这也是为什么具身智能很可能会像“手机 + 云服务”一样演进:硬件成本被标准化量产摊薄,能力通过订阅与服务持续升级。对于产业链来说,这种结构更健康;对于用户来说,这种结构更可负担、更可选择。
9. 家政反而更适合云端:实时性要求更低、可等待、可调度
自动驾驶有很强的实时闭环约束,很多决策与控制必须端侧完成,云端更多用于低频更新与离线训练。但家政/室内服务任务不同,很多任务天然是“非紧急、可等待、可排队”的:
整理收纳、擦桌拖地、按步骤做饭、检查阀门、收拾玩具……云端推理延迟几秒甚至几十秒,通常并不影响体验。
这带来几个很实在的好处:
云端可以集中更强算力,用更大模型,单位成本反而更低(利用率更高);
平台可以做峰谷调度,把重算力任务放到低峰时段;
远程人力更容易共享,一个操作员可以同时照看多个家庭端任务;
商业化更容易先跑起来,因为约束更少、调度空间更大。
因此“家政服务机器人什么时候能大规模落地”这个问题,答案很可能不是“等到某个完美单体出现”,而是“体系能否把插针做薄、把调度做起来、把成本做下去”。
10. 常识、规则、偏好与隐含约束:为什么家庭场景需要“语言”这一层
具身智能在家庭场景的难点,从来不只是“看见”和“动作”,更难的是“理解任务”。
“把客厅收拾一下”具体包含哪些子任务?收纳标准是什么?玩具进哪一格?垃圾怎么分类?
“把厨房整理干净”是台面清空还是只擦拭?调料瓶要归位还是按使用频次摆放?
“帮忙做个晚饭”不是一步动作,而是多阶段流程:找食材、洗切配、上锅、控制火候、收尾清洁,还要注意燃气安全与卫生。
“别吵到孩子睡觉”“不要把猫吓到”“这套杯子是纪念品别动”“地上那堆线别绊倒”这类隐含约束,很多不是靠视觉直接推出来的。
这些背后是人类社会积累的常识体系:物体用途、家庭习惯、卫生与安全规则、风险优先级、任务完成的“好坏标准”。语言这一层的价值,不是“让机器人能聊天”,而是让这些常识、规则、偏好、隐含约束能被表达、被检索、被推理、被对齐,从而在没见过的家庭、没见过的摆放方式、没见过的设备型号面前仍能泛化。
同时,它还能让远程插针更高效:一次插针不只是记录动作轨迹,还能记录“为什么这样做”“当时的约束是什么”“判断依据是什么”。这些可解释的语义信息,会让后续训练与流程沉淀效率显著更高,飞轮也更容易转起来。
11. 地方转型与岗位重构:从信息平权到资源再组织
具身智能体系的商业化,不只是技术路线,也与地方转型、服务供给不足、产业结构调整强相关。自动化一定会带来岗位结构重构,关键不在于“替代不替代”,而在于迁移路径是否平滑。
远程介入与运营体系会催生一批新岗位:远程操作员、调度员、维保运维、质检培训、流程设计、数据复盘等。工作不再强绑定地理位置,二三线乃至县域也能参与服务供给。对于很多地方来说,这既是承接新制造的机会,也是承接新服务、重建就业结构的机会。
如果说互联网的上半场更像信息平权,那么物联网与具身智能体系更像下一步:让能力与资源跨地域流动,形成更有机的资源分布与重新组织。
结语:从自动驾驶到具身智能,变的是场景,不变的是“体系商业化”的底层逻辑
把这些串起来,会发现“从自动驾驶到具身智能”迁移的不是某个算法,而是一套被验证过的商业化逻辑:
大部分时间自动完成高频流程
少数关键时刻远程短时插针兜底
长尾流程化,可审计、可追责、可复盘
本地算力够用就好,云端能力按需购买
家政等低实时任务更适合云端调度与异步推理
数据闭环把插针越打越薄,人机比越做越高
扩市场扩规模摊平固定成本,产业链外溢带来运维维保与新岗位
与其反复追问“人形机器人什么时候普及”,不如换一个更现实的问题:哪些场景最先能把这套体系跑通?本地+云端分层之后,人机比与单位成本能不能持续向下? 这才是具身智能商业化真正的拐点所在。
自动驾驶之心
端到端与VLA自动驾驶小班课!

963

被折叠的 条评论
为什么被折叠?



