从自驾到具身：更现实的商业化路线不是一直等「完美单体」

转载于 2025-12-29 11:17:16 发布 · 46 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247689277&idx=3&sn=264c483e1a556d4586084f4d82951e82&chksm=cf0a1ffea36055f43124fb81767a62b267359194c61b668ac8c63212dd492fd013ddb5d6e459&scene=126&sessionid=0

作者 | 李众力编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/1988250685406479372

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

这两年“具身智能”很热。热到一个现象越来越常见：一提具身智能，很多人脑子里立刻浮现人形机器人；一谈商业化，讨论就自动切换到“什么时候能有一台全能保姆机器人走进千家万户”。仿佛只有等到单体足够通用、足够聪明、足够可靠，而且最好完全无人，才配谈规模化。

但如果把镜头从“单体能力”挪到“商业路径”，会更容易看到另一条更现实的路线：具身智能的第一波商业化，很可能不会等到完美单体，而会像自动驾驶一样，先把一套体系跑通，再让单体在运营中持续变强。

所谓“体系”，不是一句口号，而是一套可复制的链路：现场有能动手的物理执行单元，大部分时间自动完成高频流程；少数关键卡点允许远程短时介入兜底；云端提供更强的模型能力（VLA/多模态/规划与质检），按需付费、持续升级；全流程可审计、可追责、可复盘；数据回流反哺模型与流程，让远程介入越来越少、越来越短；最终提升一个人覆盖多个智能体的能力（NVM），把成本摊薄到商业化成立的区间。

把这条链路看清楚，再回头看“从自动驾驶到具身智能”，会发现变化的不是“有没有人形”，而是同一套方法论在扩场景：从“开车”扩展到“干活”，从“道路”扩展到“家庭、楼宇、园区、城市服务”，从“车辆”扩展到各种机器人与物理执行单元。

1. 先看一个正在发生的铺垫：无人物流车为什么被称为“爆发前夜”

无人物流车/无人配送车的关键，并不只是“车会自己开了”。更重要的是，它在商业上把“开车”这件事改造成了一种可远程接入的服务：

大部分时间：车辆在限定场景里自己跑，系统完成常规行驶；
少数关键时刻：复杂路口、临停装卸、非标障碍、临时管制、极端边界，由远程人员短时接入兜底。

这一步非常关键：驾驶不再是“必须在场的劳动”，而变成“按需插针的远程服务”。远程人员不需要全程盯一台车，只在必要时介入几十秒到几分钟。只要插针越来越少、越来越短，一个远程人员能覆盖的车就越来越多，人车比（1 对 N）提升，单位成本才可能掉头向下。

而无人物流的规模化收益，也并不只来自“车更聪明”，还来自“运营更会摊成本”：

拓市场：从一城一域复制到更多城市/区域；
拓规模：车越多、订单越多，调度、远程兜底、运维体系越能共享；
降一点成本：不是追求一次性完全无人，而是持续压低介入频次、介入时长、恢复时间；
跨区域摊平差异：不同地区的人力与运营成本差异，可以通过远程能力与统一调度体系被摊平，形成更稳定、可复制的商业模型。

这就是典型的“体系先跑通”。而具身智能的商业化，很可能就是把这套模式迁移到更广泛的物理世界任务里。

2. 具身智能不等于人形机器人：商业化看的不是形态，而是成本结构与可治理性

人形机器人当然重要：腿能解决轮式到不了的“最后 100 米”，按电梯、开门、跨越障碍等动作更贴合人类环境默认接口。近年来下半身控制能力的成熟，也让“能走、能稳、能越障”的门槛明显下降。

但商业化先看成本结构：稳定交付、一致性、风险边界、责任治理、成本曲线。形态再像人，如果每做一单都要一个人全程盯着、全程遥控，成本结构就不成立。

更关键的是，真实世界永远有长尾。问题不在长尾是否存在，而在长尾能不能被“流程化、治理化”：触发条件是什么？远程介入开放哪些视角与权限？如何留痕审计？出了问题怎么追责？如何复盘并沉淀到模型和流程里？这些能力决定了体系能否扩张，也决定了商业化能否成立。

因此更现实的判断是：具身智能最先规模化的，往往不是“最像人”的那种，而是“最能把体系跑通”的那种。人形机器人会越来越重要，但它不是商业化的唯一入口，更不是商业化的前置条件。

3. 这套“体系”到底包含什么：把具身智能拆成五层就清晰了

为了避免概念乱用，可以把具身智能体系拆成五层（这五层和自动驾驶的产业结构高度同构）：

第一层：物理执行单元（在现场“动手”）

可以是轮式+机械臂、四足、人形、半人形，也可以是固定机械臂与家庭执行器网络（门锁、阀门、开关、升降等）。关键不是形态多酷，而是：覆盖一批高频动作、稳定、可维护、可量产、能复制。

第二层：端侧底座能力（实时、安全、断网可用）

基础感知、低级控制、安全刹停、局部避障导航、状态监测等。这层追求的是“够用、稳定、可控”，而不是“在本地塞进最强大脑”。

第三层：云端高能力（更聪明、更泛化、可迭代）

复杂语义理解、跨任务规划、长程任务编排、复杂异常归因、策略生成、质检复盘、知识更新、模型持续优化等。这里的关键词不是“部署一次就完”，而是“服务化、持续升级、按需付费”。

第四层：远程介入与调度（把长尾从事故变成流程）

远程不是为了长期遥控，而是为了短时插针。更重要的是插针要被系统化：触发、权限、留痕、追责、复盘、沉淀。

第五层：运营治理与数据闭环（让系统越跑越稳）

调度、运维、培训、质检、保险与责任边界、合规审计、事故处置流程，决定体系能否规模化。数据闭环则决定插针能不能越打越薄、人机比能不能越做越高。

这五层一旦连起来，所谓“人机共生”才从一句趋势判断，变成了一个可运营的产业结构：人不消失，但从持续劳动者变成稀缺的异常处理资源与运营资产；系统越跑越稳，人力越“高杠杆”。

4. NVM（一个人覆盖多个智能体）为什么重要：它决定成本能不能被摊薄

很多人提 NVM，会把重点放在“远程操作很酷”。但 NVM 的本质不是酷，而是成本结构是否成立。

要让一个人覆盖多个智能体成立，需要满足三个条件：

1）把持续操作变成短时插针：人只在关键节点介入，而不是全程接管。
2）把插针门槛做低：远程介入更像给目标、给确认、给少量动作，而不是高强度精细操控。
3）把插针结果变成资产：每一次插针都沉淀为训练数据、流程模板、质检样本，推动下一轮减少插针。

VR/AR、手柄、空间对齐等技术的价值也在这里：不是为了炫酷，而是降低操作的心智负担，把复杂操作变成更低维、更可训练的交互；现场执行单元负责避障、越障、稳定控制，远端做高层意图与关键动作。远程人力才能像“云服务”一样被调度和共享，而不是被一台设备绑死。

5. 家政为什么是“最难但也最典型”的场景：不需要等全自主，先把服务关系重构掉

家政是典型的长尾地狱：家庭环境非结构化、物体种类多、摆放随意、任务碎、交互复杂，还叠加隐私与信任问题。但家政同时也是刚需大市场——越难，反而越能检验“体系”的价值。

如果把前提设定为“家政机器人必须完全自主完成所有任务才能落地”，那商业化会被卡很久。但体系化路径是：把家政服务从“陌生人上门”重构为“远程任务化服务 + 现场执行单元”。

用户下单不再是“请一个人来家里干活”，而是一张张任务单：

台面整理、餐具归位
玩具收纳、垃圾分类
做饭流程中的标准步骤（洗切配、上锅、收尾清洁）
安全确认（燃气阀门、门窗、电源）并生成记录

执行单元先把能稳定做的大部分完成：移动、避障、抓取放置、简单清洁、按固定流程操作家电。真正难的那 1%（阀门型号千奇百怪、门把手结构多样、抽屉卡住、触控面板反光识别不准等），由远程人员短时插针解决，完成后立刻退出，让系统回到自动流程。

这套模式还有一个被低估的好处：它把传统家政的信任风险重新组织了。传统上门服务存在“人进屋”的不确定性；而远程任务化服务是权限可控、过程可审计的服务供给。平台上可以出现不同技能水平的远程服务人员（会做饭、会整理、会维修），但操作对象始终是家里同一个执行单元，服务关系更稳定、更可追责，甚至更容易沉淀出“家庭偏好档案”和“任务模板”。

此外，家庭成员自己也能成为“远程服务供给”的一部分：例如出门后忘关煤气、忘关电器，完全可以用便携控制设备远程确认或短时处理；或者把任务下放给平台，让远程服务人员接单解决。就像网约车把“开车这件事”平台化之后催生了多样化服务供给一样，家庭端的物理执行单元一旦普及，也会催生更丰富的服务产品形态。