从自驾到具身:更现实的商业化路线不是一直等「完美单体」

作者 | 李众力 编辑 | 自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1988250685406479372

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取自动驾驶之心知识星球

本文只做学术分享,如有侵权,联系删文

这两年“具身智能”很热。热到一个现象越来越常见:一提具身智能,很多人脑子里立刻浮现人形机器人;一谈商业化,讨论就自动切换到“什么时候能有一台全能保姆机器人走进千家万户”。仿佛只有等到单体足够通用、足够聪明、足够可靠,而且最好完全无人,才配谈规模化。

但如果把镜头从“单体能力”挪到“商业路径”,会更容易看到另一条更现实的路线:具身智能的第一波商业化,很可能不会等到完美单体,而会像自动驾驶一样,先把一套体系跑通,再让单体在运营中持续变强。

所谓“体系”,不是一句口号,而是一套可复制的链路:现场有能动手的物理执行单元,大部分时间自动完成高频流程;少数关键卡点允许远程短时介入兜底;云端提供更强的模型能力(VLA/多模态/规划与质检),按需付费、持续升级;全流程可审计、可追责、可复盘;数据回流反哺模型与流程,让远程介入越来越少、越来越短;最终提升一个人覆盖多个智能体的能力(NVM),把成本摊薄到商业化成立的区间。

把这条链路看清楚,再回头看“从自动驾驶到具身智能”,会发现变化的不是“有没有人形”,而是同一套方法论在扩场景:从“开车”扩展到“干活”,从“道路”扩展到“家庭、楼宇、园区、城市服务”,从“车辆”扩展到各种机器人与物理执行单元。

1. 先看一个正在发生的铺垫:无人物流车为什么被称为“爆发前夜”

无人物流车/无人配送车的关键,并不只是“车会自己开了”。更重要的是,它在商业上把“开车”这件事改造成了一种可远程接入的服务:

  • 大部分时间:车辆在限定场景里自己跑,系统完成常规行驶;

  • 少数关键时刻:复杂路口、临停装卸、非标障碍、临时管制、极端边界,由远程人员短时接入兜底。

这一步非常关键:驾驶不再是“必须在场的劳动”,而变成“按需插针的远程服务”。远程人员不需要全程盯一台车,只在必要时介入几十秒到几分钟。只要插针越来越少、越来越短,一个远程人员能覆盖的车就越来越多,人车比(1 对 N)提升,单位成本才可能掉头向下。

而无人物流的规模化收益,也并不只来自“车更聪明”,还来自“运营更会摊成本”:

  • 拓市场:从一城一域复制到更多城市/区域;

  • 拓规模:车越多、订单越多,调度、远程兜底、运维体系越能共享;

  • 降一点成本:不是追求一次性完全无人,而是持续压低介入频次、介入时长、恢复时间;

  • 跨区域摊平差异:不同地区的人力与运营成本差异,可以通过远程能力与统一调度体系被摊平,形成更稳定、可复制的商业模型。

这就是典型的“体系先跑通”。而具身智能的商业化,很可能就是把这套模式迁移到更广泛的物理世界任务里。

2. 具身智能不等于人形机器人:商业化看的不是形态,而是成本结构与可治理性

人形机器人当然重要:腿能解决轮式到不了的“最后 100 米”,按电梯、开门、跨越障碍等动作更贴合人类环境默认接口。近年来下半身控制能力的成熟,也让“能走、能稳、能越障”的门槛明显下降。

但商业化先看成本结构:稳定交付、一致性、风险边界、责任治理、成本曲线。形态再像人,如果每做一单都要一个人全程盯着、全程遥控,成本结构就不成立。

更关键的是,真实世界永远有长尾。问题不在长尾是否存在,而在长尾能不能被“流程化、治理化”:触发条件是什么?远程介入开放哪些视角与权限?如何留痕审计?出了问题怎么追责?如何复盘并沉淀到模型和流程里?这些能力决定了体系能否扩张,也决定了商业化能否成立。

因此更现实的判断是:具身智能最先规模化的,往往不是“最像人”的那种,而是“最能把体系跑通”的那种。 人形机器人会越来越重要,但它不是商业化的唯一入口,更不是商业化的前置条件。

3. 这套“体系”到底包含什么:把具身智能拆成五层就清晰了

为了避免概念乱用,可以把具身智能体系拆成五层(这五层和自动驾驶的产业结构高度同构):

第一层:物理执行单元(在现场“动手”)

可以是轮式+机械臂、四足、人形、半人形,也可以是固定机械臂与家庭执行器网络(门锁、阀门、开关、升降等)。关键不是形态多酷,而是:覆盖一批高频动作、稳定、可维护、可量产、能复制。

第二层:端侧底座能力(实时、安全、断网可用)

基础感知、低级控制、安全刹停、局部避障导航、状态监测等。这层追求的是“够用、稳定、可控”,而不是“在本地塞进最强大脑”。

第三层:云端高能力(更聪明、更泛化、可迭代)

复杂语义理解、跨任务规划、长程任务编排、复杂异常归因、策略生成、质检复盘、知识更新、模型持续优化等。这里的关键词不是“部署一次就完”,而是“服务化、持续升级、按需付费”。

第四层:远程介入与调度(把长尾从事故变成流程)

远程不是为了长期遥控,而是为了短时插针。更重要的是插针要被系统化:触发、权限、留痕、追责、复盘、沉淀。

第五层:运营治理与数据闭环(让系统越跑越稳)

调度、运维、培训、质检、保险与责任边界、合规审计、事故处置流程,决定体系能否规模化。数据闭环则决定插针能不能越打越薄、人机比能不能越做越高。

这五层一旦连起来,所谓“人机共生”才从一句趋势判断,变成了一个可运营的产业结构:人不消失,但从持续劳动者变成稀缺的异常处理资源与运营资产;系统越跑越稳,人力越“高杠杆”。

4. NVM(一个人覆盖多个智能体)为什么重要:它决定成本能不能被摊薄

很多人提 NVM,会把重点放在“远程操作很酷”。但 NVM 的本质不是酷,而是成本结构是否成立。

要让一个人覆盖多个智能体成立,需要满足三个条件:

1)把持续操作变成短时插针:人只在关键节点介入,而不是全程接管。
2)把插针门槛做低:远程介入更像给目标、给确认、给少量动作,而不是高强度精细操控。
3)把插针结果变成资产:每一次插针都沉淀为训练数据、流程模板、质检样本,推动下一轮减少插针。

VR/AR、手柄、空间对齐等技术的价值也在这里:不是为了炫酷,而是降低操作的心智负担,把复杂操作变成更低维、更可训练的交互;现场执行单元负责避障、越障、稳定控制,远端做高层意图与关键动作。远程人力才能像“云服务”一样被调度和共享,而不是被一台设备绑死。

5. 家政为什么是“最难但也最典型”的场景:不需要等全自主,先把服务关系重构掉

家政是典型的长尾地狱:家庭环境非结构化、物体种类多、摆放随意、任务碎、交互复杂,还叠加隐私与信任问题。但家政同时也是刚需大市场——越难,反而越能检验“体系”的价值。

如果把前提设定为“家政机器人必须完全自主完成所有任务才能落地”,那商业化会被卡很久。但体系化路径是:把家政服务从“陌生人上门”重构为“远程任务化服务 + 现场执行单元”。

用户下单不再是“请一个人来家里干活”,而是一张张任务单:

  • 台面整理、餐具归位

  • 玩具收纳、垃圾分类

  • 做饭流程中的标准步骤(洗切配、上锅、收尾清洁)

  • 安全确认(燃气阀门、门窗、电源)并生成记录

执行单元先把能稳定做的大部分完成:移动、避障、抓取放置、简单清洁、按固定流程操作家电。真正难的那 1%(阀门型号千奇百怪、门把手结构多样、抽屉卡住、触控面板反光识别不准等),由远程人员短时插针解决,完成后立刻退出,让系统回到自动流程。

这套模式还有一个被低估的好处:它把传统家政的信任风险重新组织了。传统上门服务存在“人进屋”的不确定性;而远程任务化服务是权限可控、过程可审计的服务供给。平台上可以出现不同技能水平的远程服务人员(会做饭、会整理、会维修),但操作对象始终是家里同一个执行单元,服务关系更稳定、更可追责,甚至更容易沉淀出“家庭偏好档案”和“任务模板”。

此外,家庭成员自己也能成为“远程服务供给”的一部分:例如出门后忘关煤气、忘关电器,完全可以用便携控制设备远程确认或短时处理;或者把任务下放给平台,让远程服务人员接单解决。就像网约车把“开车这件事”平台化之后催生了多样化服务供给一样,家庭端的物理执行单元一旦普及,也会催生更丰富的服务产品形态。

6. 隐私与信任怎么过关:靠机制,不靠口头承诺

远程介入一出现,隐私与安全就会被放大讨论。这是正常的,也必须正面回答:远程人员能看到什么?能做什么?出了事怎么算?

可规模化的做法不是“直播”,而是受控窗口 + 匿名化 + 证据链:

  • 敏感区域默认不开放或只开放局部视野

  • 人脸、照片墙、证件、门牌号、窗外地标等自动遮挡

  • 变声、头像替换、背景模糊等匿名化手段,让“能操作”与“能识别身份”分离

  • 最小权限:按单授权,任务结束自动回收

  • 全程留痕:视频/指令/关键帧审计,可回放、可追责、可复盘

AIGC 相关技术的进步,让匿名化与受控展示更容易做到工程化落地:看得到完成任务所需信息,但看不到身份与敏感细节。规模化服务最需要的不是“保证永远没事”,而是“出了事能说清、能追责、能改进”。

7. 不止无人物流:清洁、巡检、政务服务等场景,本质上都是同一套路线

具身智能最先落地的场景,通常具备一些共同特征:高频、任务可拆解、流程可标准化、环境相对可控、易审计易复盘。因此它不会只发生在家庭,也不会只发生在无人物流:

  • 城市清洁车、扫地机器人:高频任务,异常可插针

  • 园区巡检、楼宇运维:流程明确、路径稳定、易审计易复盘

  • 政务/服务机器人:大量问题是交互长尾,远程兜底能把服务做稳定

  • 商场、酒店、医院等服务场景:任务模板化程度高,更适合体系先跑通

“腿/四足/人形”的价值会在这些场景中逐步显现:不是为了更像人,而是为了覆盖更多现场环境,把轮式到不了的地方纳入执行范围,减少必须人工到场的比例。

8. 算力这件事,决定了具身智能会不会“像手机一样普及”

很多人聊具身智能时默认一个前提:每台设备都得在本地跑一个特别大的模型。但从商业化角度看,这个前提反而经常不成立。

更自然、也更容易规模化的方式是:本地算力 + 云端算力分层,并形成市场化分档。

  • 本地侧负责实时、安全、断网可用的底座:基础感知、低级控制、安全刹停、局部避障导航等。追求“够用、稳定、可控”。

  • 云端侧负责更强的理解与泛化:复杂语义理解、跨任务规划、长程任务编排、异常归因、策略生成、质检复盘、知识更新等。追求“强大、可迭代、可升级、按量付费”。

于是自然出现“不同价格对应不同体验”的市场化分层:

用户可以买低本地算力版本保证基础可用,也可以买更强云端能力套餐获得更少插针、更高一致性、更强复杂任务处理能力。价格由市场决定,而不是由“每台都得顶配”的工程理想决定。

这也是为什么具身智能很可能会像“手机 + 云服务”一样演进:硬件成本被标准化量产摊薄,能力通过订阅与服务持续升级。对于产业链来说,这种结构更健康;对于用户来说,这种结构更可负担、更可选择。

9. 家政反而更适合云端:实时性要求更低、可等待、可调度

自动驾驶有很强的实时闭环约束,很多决策与控制必须端侧完成,云端更多用于低频更新与离线训练。但家政/室内服务任务不同,很多任务天然是“非紧急、可等待、可排队”的:

整理收纳、擦桌拖地、按步骤做饭、检查阀门、收拾玩具……云端推理延迟几秒甚至几十秒,通常并不影响体验。

这带来几个很实在的好处:

  • 云端可以集中更强算力,用更大模型,单位成本反而更低(利用率更高);

  • 平台可以做峰谷调度,把重算力任务放到低峰时段;

  • 远程人力更容易共享,一个操作员可以同时照看多个家庭端任务;

  • 商业化更容易先跑起来,因为约束更少、调度空间更大。

因此“家政服务机器人什么时候能大规模落地”这个问题,答案很可能不是“等到某个完美单体出现”,而是“体系能否把插针做薄、把调度做起来、把成本做下去”。

10. 常识、规则、偏好与隐含约束:为什么家庭场景需要“语言”这一层

具身智能在家庭场景的难点,从来不只是“看见”和“动作”,更难的是“理解任务”。

“把客厅收拾一下”具体包含哪些子任务?收纳标准是什么?玩具进哪一格?垃圾怎么分类?

“把厨房整理干净”是台面清空还是只擦拭?调料瓶要归位还是按使用频次摆放?

“帮忙做个晚饭”不是一步动作,而是多阶段流程:找食材、洗切配、上锅、控制火候、收尾清洁,还要注意燃气安全与卫生。

“别吵到孩子睡觉”“不要把猫吓到”“这套杯子是纪念品别动”“地上那堆线别绊倒”这类隐含约束,很多不是靠视觉直接推出来的。

这些背后是人类社会积累的常识体系:物体用途、家庭习惯、卫生与安全规则、风险优先级、任务完成的“好坏标准”。语言这一层的价值,不是“让机器人能聊天”,而是让这些常识、规则、偏好、隐含约束能被表达、被检索、被推理、被对齐,从而在没见过的家庭、没见过的摆放方式、没见过的设备型号面前仍能泛化。

同时,它还能让远程插针更高效:一次插针不只是记录动作轨迹,还能记录“为什么这样做”“当时的约束是什么”“判断依据是什么”。这些可解释的语义信息,会让后续训练与流程沉淀效率显著更高,飞轮也更容易转起来。

11. 地方转型与岗位重构:从信息平权到资源再组织

具身智能体系的商业化,不只是技术路线,也与地方转型、服务供给不足、产业结构调整强相关。自动化一定会带来岗位结构重构,关键不在于“替代不替代”,而在于迁移路径是否平滑。

远程介入与运营体系会催生一批新岗位:远程操作员、调度员、维保运维、质检培训、流程设计、数据复盘等。工作不再强绑定地理位置,二三线乃至县域也能参与服务供给。对于很多地方来说,这既是承接新制造的机会,也是承接新服务、重建就业结构的机会。

如果说互联网的上半场更像信息平权,那么物联网与具身智能体系更像下一步:让能力与资源跨地域流动,形成更有机的资源分布与重新组织。

结语:从自动驾驶到具身智能,变的是场景,不变的是“体系商业化”的底层逻辑

把这些串起来,会发现“从自动驾驶到具身智能”迁移的不是某个算法,而是一套被验证过的商业化逻辑:

  • 大部分时间自动完成高频流程

  • 少数关键时刻远程短时插针兜底

  • 长尾流程化,可审计、可追责、可复盘

  • 本地算力够用就好,云端能力按需购买

  • 家政等低实时任务更适合云端调度与异步推理

  • 数据闭环把插针越打越薄,人机比越做越高

  • 扩市场扩规模摊平固定成本,产业链外溢带来运维维保与新岗位

与其反复追问“人形机器人什么时候普及”,不如换一个更现实的问题:哪些场景最先能把这套体系跑通?本地+云端分层之后,人机比与单位成本能不能持续向下? 这才是具身智能商业化真正的拐点所在。

自动驾驶之心

端到端与VLA自动驾驶小班课!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值