具身数采方案一览!遥操作和动捕的方式、难点和挑战(2w字干货分享)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

继具身本体未定论专场讨论后,几位嘉宾意犹未尽,决定再来一场圆桌,聚焦具身智能的“方向盘”--遥操作。

遥操作本身并非新概念,甚至在一二十年前效果就非常好了。那这一次,遥操作再次走进大家视野,是带来或准备带来哪些升级呢?

同时,希望本次圆桌,会给正在或准备进行遥操作相关学习和研究的同学,带来有关遥操作一些高屋建瓴的认知,同时为他们今后的学习研究之路带来一些启发。

本期我们会深入聊到:遥操作是什么、各式各样的遥操作体验分享、遥操存在的意义只是为了采数据吗、动捕有什么难点、aloha的划时代意义、遥操终局畅想、如果机器人有操作系统等。大家一起来体验这场火花四溅又若有所思的圆桌吧!

完整视频已经上传到国内首个具身智能全栈技术社区:具身智能之心知识星球内部,感兴趣的同学欢迎加入交流。

图片

圆桌嘉宾:赵仲夏 格灵深瞳算法总监 北京大学和智源研究院访问-学者(小红书id:夏染)

圆桌嘉宾:智元机器人遥操负责人-王文灏

圆桌嘉宾:清华大学自动化系副教授,灵御智能首席科学家-莫一林(知乎ID:莫一林)

圆桌主持人:知乎大V,沃尔沃哲晰软件(Zenseact)深度学习负责人-刘斯坦

圆桌主持人:具身智能之心 -Gloria

目录

1. 字越少,信息量越大:如何理解“遥操作”
2. 遥操体验分享:目前哪种遥操方式最舒适
3. 遥操方案畅想:人到机与机到人/纯虚与纯实
4. 遥操只对采数据有用?渐进式的落地方案
5. 遥操对足,机械臂,灵巧手意味着什么?
6. 动捕的难点、挑战和解决方案
7. 如何评价ALOHA
8. 我们到底需要怎样的一种人机交互方式
9. 我们需要的遥操:有参与、有互动、有感受!
10. 如果机器人有操作系统

全文约18000字,预计需要20分钟

1

字越少,信息量越大:

如何理解“遥操作”

刘斯坦

首先请赵老师首先给大家科普一下这个遥操就是机器人智能行业遥操作到底是什么意思?为什么会有这个东西?

赵仲夏

我开始思考什么是遥操,发现字越少信息量越大,最后只能通过一些例子去描述我见到的遥操。遥操这个概念应该在大几十年前就已经诞生了,我理解它来源于太空探索,偏军事偏航天领域,做一些远程的操作任务。我在具身智能这一波前看到的有这么几个例子:

  • 第一个就是手术机器人,会有四只手,一个操作台,一个医生或者两个医生可以通过类似于同构的方式去遥控机器人,完成手术操作。

  • 另外一个叫做远程遥控挖掘机。我们可以通过让工作人员遥操,司机坐在空调房里面,去远程的遥操挖掘机去挖土。这是我之前有见过的几个例子。

刘斯坦

那我们开车用方向盘操作,是不是也是遥操?

赵仲夏

是也不是,遥操就是叫tele operator,这个tele应该是指远距离的意思。莫老师提到一个很高很好的点,就是多远算远呢?如果真的做具身的朋友,可能会有一个非常荒诞的一个现象:明明就在它面前,我还要用一个同构的方式或者用一些VR的方式,这个VR甚至没有把图传过来,我是要挂在脖子上,近距离盯着机器人去完成一个操作。理想中的遥操是要有空间上的隔离的,需要把实时的信息传到我们的眼睛或者在屏幕上的。就是因为我们需要有空间隔离,我们才可以让人去通过设备去操控在这个空间之外的机器人,完成任务。而因为这个空间产生了真正的价值。就比如说我在线下,去遥操太空的机器人,或者是我在相对远程的地方,或者是我在一个相对远距离更低人称的视角,去用更高精的设施来完成操作,就是因为空间产生了价值。

王文灏

操作一个虚拟世界中的角色呢?他在服务器里面产生的动作算吗?(笑)

图形学和机器人学是一体两面,也就是现在的仿真/真机之争。

赵仲夏

我这里还有一个点,机械臂有一个关键的操作叫做示教。我们可以用拖动的方式或者其他的方式去给机械臂设定好轨迹。这样机器人、机械臂可以去复现这个轨迹。

示教这个概念也很抽象,你会发现机器人的各种操作都可以叫示教。但是我们回归到机械臂的视角上,其实有一部分的设备就是跟机械臂联调在一起的设备,其实也来源于这个示教上。有按钮的拖曳示教,再之后有一种叫做空间鼠标的示教,类似于一个雕刻笔,去遥控一个机器人完成一个示教。所以那个时候其实就有可能诞生了同构示教这个事情。但是它真正的发扬光大还是来源于Aloha,来源于具身智能的概念爆火之后。

大家发现具身智能是需要人操控机器人去采集一些真机数据的那这个时候,遥操变成了一个非常重要的事情了。这个概念之前就有,但是大家从来没有把它放到一个如此重的位置上。所以我会感觉我们今天讨论遥操来源就是它。历史有很多很多脉络,但是今天我们讨论遥操是因为具身智能出现之后,人机交互的操控,机器人采集数据这件事情变得非常重要了。而遥操这件事情也就被大家像那个搭基石一样奠基一样,搭的越来越好。

刘斯坦

那就是说,遥操这个概念由来已久。但是到具身智能这里变得这么重要,主要是因为具身智能现在数据的缺乏导致的是吧?还是说还有其他的作用。

赵仲夏

我觉得具身智能是因为它之前是一个规则范式。像我们之前做机器人是建图-定位-导航-规划-控制,机械臂是视觉-感知-规划-控制,是这么一套规则驱动的范式。具身有点像是12年的人脸识别,从规则方式变成了数据驱动范式,这种范式最尖端的数据是需要使用真机采集,在实际场景下的实际环境下做实际任务,这就导致了遥操不可避免的成为了一个主流的方式。

刘斯坦

因为我们都是使用遥操数据进行模仿学习是吧?除了这个之外还有其他的作用吗?

赵仲夏

我会感觉这里面有一个非常好的暴论,但或者这个暴论其实来源于一个概念叫借假修真。什么叫借假修真呢?就是有的东西它可能没有办法完成,但是因为我们愿景朝着那个方向努力,才会有些中间态出现。就是因为有一个具身智能那样的概念在牵引,我这个行业才会积蓄力量去把那个供应链打下来,把遥操做的更好。

所以我会觉得遥操是一个非常重要的概念,是借着具身智能这一波,逐渐的变成一个主流的东西,并且总有一天它会反哺在整个具身智能上,或者它会反哺在整个机器人行业上。

2

遥操体验分享:

目前哪种遥操方式最舒适

刘斯坦

接下来我们想各位嘉宾都来参与一下。在座的都使用过遥操对吧?比如王老师是智元遥操的负责人,莫老师现在公司业务也是主要是跟遥操相关的。那现在请各位嘉宾聊一下,你们接触过什么种哪些种类的遥操,都有什么样的体验。

赵仲夏

我接触遥操首先大部分还是同构的,有点像啥那种基于同构臂,或者说是一个等比例缩小的,或者是一些构型类似的臂,去控制一个远程的,控制一个更大的臂,或者更像类人的臂我也有体验过类似于用VR去操控,因为我是做了很多年的VR方向。其实就是利用那个摄像头去识别,识别有点像动捕的技术。另外涉及到人形机器人,因为我刚刚做的大部分都是机械臂相关的,人形机器人之前有做调研,有一些全身动捕的,利用惯性或者光学的一些方式,去做这种遥操的,就是驱动一个全人形的机器人去动起来的方式。这个特斯拉应该也在使用这种方式。

刘斯坦

那比如说,使用VR设备的遥操,赵老师有过怎样的体验呢?

赵仲夏

我的感受就是我们要尊重VR。就是这个行业从16年开始到现在,从VR到MR到AR到MR到数字孪生到数字原生到元宇宙再到空间计算(空间计算是苹果提出的概念)。

我们现在拿到的产品是这十年中无数的“借尸还魂”最终诞生的那个半成品。它本来不是为机器人创造的,但是它阴差阳错作为一个机器人动捕设备而言很好,它很准,因为毕竟人家也要成为下一个平台,或者说我们一直认为眼镜和机器人都是未来的那个平台。只是没有想到机器人可能来的更早了,就是机器人这一波又起来了,不能说来的更早一点,我们谁也不确定谁会来的更早一点。所以就是因为大家这么多科技含量的东西,砸到眼镜这个平台上,所以才有了用眼镜去做交互,做遥操的这个方式最后给具身做了嫁衣。

我的实际体验下来,我觉得是比较准的。但它也有些问题,就比如说因为它终究是视觉方案,它会有遮挡。再之后是通过视觉方案去获得全身的位置,还不会差一些。所以我们看到苹果用了好多好多相机的组合。所以从我这个角度看,甚至有些那种脑补的。大家如果以前做那个骨骼点的识别,你会发现骨骼点识别它会脑补一些姿态。就比如说你现在没有看到我们的腿,但实际我们的腿可能已经被推测出来一些骨骼点对,实际上我说你的算法有一些这种能力。所以从我角度看,VR的遥操还不错。

刘斯坦

那王老师有些什么体验呢?你肯定对遥操非常了解吧?

王文灏

我会觉得遥操本质上是控制问题。假如我们现在去聊一个关于机械臂的控制问题,大多数时候在聊关节空间的控制和末端的控制,也就是解IK的和不解IK的。解IK的你就可以用很多个reference点去引导这个IK怎么解,它的输入设备可以分为VR提供输入,可以用视觉、动捕提供输入。

如果你是关节空间控制,那就是直接控制一个个电机。你需要一个和这个臂长得很像的一个主臂。

因为它最终是一个控制问题,所以你也可以不这样去控制它。你也可以用WASD去控制它,或者是用各种奇怪的方式。

控制的方式是一个映射。控制一个遥控汽车,可以通过一个摇杆。但是因为在控制一个机械臂,需要控制一个点在6维的移动。这种情况下需要用一个能够在空间中捕获它位置的方式是最好的。

刘斯坦

所以那你体验下来哪种遥操的方法是最舒服的。

王文灏

纯视觉IK。

可以用各种手势组合一切按键功能。

赵仲夏

纯视觉IK是最舒服+1!

我的感受是这样的,就是纯视觉解IK的方式,像莫老师和和文灏老师他们会对遥操有一些很纠结的体验。你会发现纯视觉解IK有什么好处呢?就是人是自由的,就是我没有当人做方向盘的时候,人只能这么操控。当操控一个同构的臂的时候,人只能跟着这个同构臂去走,所以人是这时候是僵化的。但是你在用无论是人玩还是用视觉去追踪手腕的时候,它是一个自由的状态。所以我从这个角度看,我观察无论是莫老师的产品,还是文灏老师的工作。我会觉得他首先人要是自由的,这样他可以做出灵活的动作来。

灵御的遥操:VR相比于同构的区别是人类的手是自由的不是被束缚状态的

但我如果从做算法角度看,因为每种方式都不成熟。所以我可能为了精准的操作,如果我的小朋友们解IK解的不好的时候,我会倾向于用一些同构的方式。原因是因为每个关节我直接映射过去,我可以有个更精准的控制。

3

遥操方案畅想:

人到机与机到人/纯虚与纯实

莫一林

其实我觉得某种角度来说,就是人在回路(Human In the Loop)的控制。主要是两点:一个是人到机,一个是机到人,这样才能形成一个完整的控制闭环。

我们在实际测试过程中发现,最大的麻烦就是延迟。不管是人控制机器,还是机器反馈给人,只要延迟一高,体验就会变得特别糟糕。你想啊,整个系统的延迟是每个环节延迟的累加,所以只要有一个地方没优化好,整体延迟就上去了。比如200毫秒的延迟,打游戏基本就没法玩了,所以这个问题真的特别关键。

从人控制机器的角度来说,目前最靠谱的还是视觉输入。但机器反馈给人这块儿,我们现在用的还是纯视觉反馈,就是人只能看到画面。

虽然理论上可以加力反馈,比如外骨骼或者触觉设备,让你能'感觉'到虚拟物体的阻力,但这里又有两个问题:一是延迟(可能50-100毫秒),二是力觉的真实性——它真的能完美还原真实触感吗?

说实话,力反馈这块儿现在做的人不多。VR行业之前也尝试过,比如用外骨骼让你在VR里撞墙时手真的被挡住,但最后也没普及起来。所以我们觉得这个技术可能还不够成熟,就没往这个方向走。

长远来看,说不定脑机接口才是终极方案——直接让大脑和机器对话,什么延迟、触觉反馈,全都不是问题了。

王文灏

设想中最终的遥操会用一个纯虚的方案和一个纯实的方案。纯虚的方案就是纯视觉的去捕捉,你身上不用带任何东西,这样最方便。让你在做一些不需要非常多触控的任务里面随启随用。比如说打个响指启动之类。

另外一种方案是纯实的,你带了一个外骨骼,就像开高达或者是开机甲,你可以获得最真实的力反馈。当你一拳打到墙上,你可以感受到那个力作用在手上。我理想中会是这样两个方案。

纯虚和纯实的方案

赵仲夏

我这边再补充一个,你刚刚说的纯视觉的方案里面,我有个这样的想法,就是其实一切的数据都可以被看到,触觉也可以被看到,就是力和触觉都可以被你放一个界面可以看到。

王文灏

其实可以。

赵仲夏

但是不够直观。

具身智能之心 Gloria

对,确实软件工程里面有个词叫“埋点”,就是我觉得你的点只要埋得够丰富,够立体,你想要的数据还是能得到。

赵仲夏

所以我里面我觉得这里面最棒的就是刚刚莫老师提到两个概念,一个叫人到机,一个是机到人。对,王老师提到又提到了两个好玩的概念,一个叫纯实的方案,一个叫纯虚的方案。

刘斯坦

非常有意思。

王文灏

我还有一个想法,就是刚才莫老师说到人在回路内的延迟是有很多部分的延迟叠加的。

在遥操里面似乎延迟越低越好,但是对在汽车的操控中似乎不是这样。汽车底盘有硬有软,方向盘可以有虚位,也有没有虚位,这是每个汽车厂商他要调教的方式。

刘斯坦

不,自驾系统还是肯定希望延迟越低越好。但是你们说说这个底盘的软硬,这是一个体验的问题。

王文灏

对,但是你在遥操的时候,你如果那个机械臂太软......

刘斯坦

那体验不好,确实是的。

王文灏

因此你其实就希望他越跟手越好,只有这一个评价标准。

赵仲夏

所以我们打游戏的时候有一个概念叫卡肉,就是一个近战器卡到一个3D虚拟上面,如果它特意卡了一下,你的打击感会特别好。那还是实的还是虚的呢?我就是虚实相生,就你中有我,我中有你了。

莫一林

其实关于遥操作,我还有个观点想补充——这东西说到底还是跟人体特性强相关。我觉得一个好的遥操作系统,应该要充分调动人脑的神经网络能力。

举个最简单的例子:人的手眼协调能力。比如我看到桌上有个杯子,闭着眼睛也能轻松摸到它,根本不需要一直盯着手看。但现在很多遥操作产品,操作员得死死盯着机器手,一点一点挪过去,这就导致了操作速度变慢。

这里有个很有意思的现象:人眼视觉其实延迟挺大的(50ms左右),但为什么现实中我们操作这么精准?就是因为大脑建立了一套高效的手眼协调机制。所以我觉得,遥操作准不准、快不快,关键就看能不能让用户建立起这种自然的手眼配合。要是能做到这一点,操作效率绝对能上一个台阶。

4

遥操只对采数据有用?

渐进式的落地方案

刘斯坦

接下来我们来讨论一个问题:我们一直在说遥操作在机器人时代的重要性,主要是因为它能用来采集数据,进而实现模仿学习,对吧?

你想让机器人变得像人一样,目前来看最直接的方式就是通过遥操作获取人类的操作数据——这跟现在开车是一个道理,大家都希望机器人能像老司机那样熟练操作。

刚才王老师提到的那种“高达式”的操作方式,其实也是这个逻辑下的延伸。

但你为什么这么执着于那种高达式的操作呢?难道不也是为了采数据吗?

王文灏

有很多类似的电影,比如说钢铁侠、环太平洋、铁甲钢拳。

它是你人的能力的延伸,所以你获得一个新的身体,这个身体能够举起更大的石头,能够有更大的力气,能够更快。这个事情会给人类本身带来乐趣:就是你在操控一件事情的时候,你本身是有乐趣的。因为你的输入和他的反馈非常的吻合,你的某个多巴胺的回路就会被激活。

这就是为什么可能有人非常喜欢开车,有人非常喜欢有操纵感。

刘斯坦

那我在想有没有这种,人可能有的时候一个本体在这里,他同时一个分身在其他的地方?

王文灏

我们最先开始想做这个事就是因为希望这样。我在美国上学,我希望能够在国内放一个自己的实体。随时传送回来。

刘斯坦

是陪父母还是女朋友(笑)?

王文灏

都可以(一脸诚恳)。

莫一林

我其实觉得还有一个例子:三体,就是三体里面他们要把一个人送到三体星。但是后来发现能送的质量其实非常有限。最后就是只传大脑,把所有的东西都都抛弃掉,因为我只能放那么一点点有限的质量。

其实仔细想想,我们过去几十年一直在经历一场“传输革命”。从70年代互联网诞生开始,整个世界就在慢慢从传递物质转向只传信息。举个特别有意思的例子:20年前发论文还得手写邮寄,编辑部收到后再寄给审稿人。我当时就在想,要是审稿人不想审,这邮件来回得多折腾啊!

而且这个趋势还在不断扩大。最早的互联网就是为了发邮件,后来能传图片、传音频。我觉得只传信息的下一步,就是传递操作信息。人不需要亲自到场,物质也不需要移动,只要把信息传过去就够了。

刘斯坦

这个有点像缩减版的脑机接口,只传递物理运动的信息对吧?

王文灏

我们可以在很多地方都放各种各样的机器人,你可以瞬移到任何地方。

刘斯坦

对对对,就是说这个信号是明确的,explicit的,就是直接展示出来的。那么赵老师,遥操除了我们刚才说的这些东西,还有其他的作用吗?

赵仲夏

当5G出现之后,大家开始想我要为5G创造一些应用。那时候其实除了VR的8K的实时的视频流之外,其实还有一个就是涉及到5G的遥操机器。但是我们后来发现这个概念并没有实际地迭代起来。原因是因为只是通信完成了一个突破是不够的,甚至可能这个通信有没有突破,就是有没有在遥操这个领域真实的达到了我们想要的那个突破。

回归到那个遥操是否只是对数据有用?我刚刚提到一个概念叫借假修真。就是可能我们因为想做自动驾驶,才能够更好的把新能源车做好,就是因为有一个自动驾驶的愿景,我们的智能驾舱会出现,我们的影子模式会出现。

我会觉得其实很多事情即使它最终必然会出现,但是它的过程是很崎岖。我会觉得遥操是被自身智能催生出来的一个很好很棒的东西。它有可能像我们今天这次的主题,就是这是文灏老师想到的,就是要给机器人增加一个方向盘和驾驶舱。我会觉得以前的机器人是没有方向盘,没有驾驶舱的。

但是因为要做自身这件事情,机器人反而有可能有了方向盘和驾驶舱。当方向盘和驾驶舱和机身结合在一起之后,这个东西有可能在商业上是实现一些突破,从而导致这个事可以继续迭代下去。所以这是我的一个看法。

5

遥操对足,机械臂,灵巧手

意味着什么?

这一讨论源于2024年上海AI Lab提出的机器人驾驶舱概念。

今年观察到行业新趋势:双臂移动底盘机器人普遍增设多功能按钮,用于控制全向轮移动及关节运动。这引出一个本质问题——当机器人具备60多个关节时,意味着操作者需要用自身60多个关节进行映射控制。

这种全关节映射存在显著挑战:

1. 操作复杂性:人类单位时间内可处理的操作信号有限,如同演奏《野蜂飞舞》存在生理极限;

2. 控制维度爆炸:需设计新型硬件交互界面(如脚踏按钮阵列)和辅助算法;

3. 动作触发机制:非标准动作(如起身、挥手)需要特殊触发逻辑。

当前解决方案尚未成熟,但可确定机器人的动作潜力远超人类操作极限。未来或需突破性的人机交互范式。

刘斯坦  

我们接下来进入更细节的环节。遥操作技术对灵巧手、足式移动、机械臂乃至全身控制都有应用。为避免讨论过于发散,我们聚焦核心议题。

赵仲夏

其实这里是去年的时候,上海的ailab提出来一个机器人驾驶舱的概念。有提到了我如何把一个腰膝关节的控制加进去。我发现今年的时候,其实陆陆续续的做双臂移动底盘机器人的公司,开始在主臂的控制器上面增加很多按钮。这个按钮是干嘛的这按钮是加全向轮全向底盘移动的,加膝关节腰关节的上下移动。

从我的角度看,其实对足或者对灵巧手,或者对机械臂都可以抽象成一个问题---我们在做的事情是一个机器人如果最终有六十多个关节,相当于是人在用人在用自己的六十多个关节去控机器人的六十多个关节,其实你真实的在一个场景里去玩,你会发现机器人能做操作非常多。有些操作它有可能就是比如说我要起身,我要挥手,那这种操作你要如何,就是它也依然需要被触发,那要怎么去操作呢?

所以这是我觉得你刚刚问对于足,对于灵巧手,对于机械臂而言意味着什么?我会指向一个这样的回答,就是如果人的短时间能够处理的操作是有限的时候,就像弹那个野蜂飞舞一样,人能够操作的单位时间给出的操作信号是有限的。我们如何用这一些信号去映射到一个开放世界的庞大的复杂的高达身上,让它完成任务呢?对我猜想这里面有一些硬件的设计,有一些人机交互的设计,甚至有一些辅助算法的设计。

我对这个问题有了一个抽象,就是受限的关节的人的操作极限与更复杂关节的机器极限对应,我相信这个机器的极限一定超过人给出来的极限。

6

动捕的难点、挑战和解决方案

刘斯坦

接着我们谈一谈动捕系统。刚才我们谈动捕系统,大家一致地形成一个答案,就是说要人要自由,对吧?但自由是不是意味着说操作的精度开始丧失?因为你各种遮挡,手的tracking,这种关节的tracking,人还有高矮胖瘦对吧?你人长得不一样,但遥操的机器人本体是一样的,对吧?那是各种问题。

所以我现在问你,就是动捕系统对整个关节还有全身的这种灵活性的捕捉,它的精度到底要到什么要求?就比如说我一个shi胖纸,在这里操作得到数据,能够去操作一个瘦瘦高高的机器人吗,王老师你们来聊一聊。

王文灏

动捕是被研究非常透彻的,它在动画界里面会有非常多使用。

就你在游戏里面看到的那些动作,基本上都是由动作演员穿的动捕服去做出来。你在周围要建一圈这样的密密麻麻摄像头,并且非常贵,它一次能够承载的动捕的数量还不是很多。

赵仲夏

那如何解决不同的人操控同一款机器人产生的这个误差,就是高矮胖瘦小朋友映射到机器人上

莫一林

人其实具有很强的重定向的能力。我们感觉比如说你戴眼镜和你不戴眼镜,或者说你戴着眼镜和你比如说你戴着一个,比如说你带着一个vision pro但其实vision pro它是由你眼睛前面一点的一个摄像头捕捉到。你戴着vision pro实际上你操作的东西并没有什么问题。我整体感觉如果你带一个比如说这种望远镜一样,就相当于你把你的整个市场角,比如说给压缩了。我感觉其实操作起来也不会有特别大的问题。所以整个我觉得你如果说,其实人的比如说高矮,胳膊的长度这些其实会有一些影响。但是我觉得整体上那个人的这种重新把这个胳膊给map到这个的能力其实很强的。对对对。

赵仲夏

但是我有一个感受,比如说因为这个东西是之前莫老师特意跟我讲过的。王老师说他的人他的机器人设计就是一个他会找到一个比较标准的臂长。

莫一林

我们设计的机械臂长度大概是大臂、小臂都是30公分,基本相当于一个一米八的人的胳膊尺寸。这里其实涉及到一个标准化的问题——最好能统一换算到标准身高。如果要做一套VR输入设备,系统应该会让你输入身高,然后自动换算成对应的臂长参数。不然的话,比如小朋友操作,机械臂可能永远都伸不到位,那体验就太糟糕了。

不过说到臂长感知,其实挺有意思的。人对胳膊长度的判断主要来自视觉,这本质上还是个手眼协调的问题。举个例子:当你戴着望远镜时,手看起来变小了,在视野中占据的空间也变小了,但你依然能正常操作。再比如歪着头看东西,或者戴着不同视场角的VR/AR眼镜(VR视场角大,AR视场角小),人都能很快适应。

这说明人类的手眼协调系统非常强大,能够快速适应各种视觉变化。我们之前做实验也验证了这一点——不管视觉输入怎么变,人总能很快调整过来。

赵仲夏

这里有一个很很好玩的问题,我不知道群里那个做灵巧手的人有没有?灵巧手那个动物的手套就manus的。你用惯导的手套,你是没有办法识别到我的两个手指已经接触的,所以20万的那个manus 2代的手套,好像是在指尖加了一个磁圈,它可以感知到这两个手指开始产生了一个接触,从而强行校准了不同人的手,不同大小的手,都可以完成一个标准化的东西。所以就是我我这个的点在于就像您说的,如果我手特别短,我伸不到机器人能伸到最远的地方,所以我猜想这个可能是一个开放问题,未来可能要去设计考虑到问题就是不同的人如何去获取到这个机器人尽可能全部的权限。

莫一林

在遥操作系统中,手臂的控制其实是最明确的——只需要让机械臂的位姿按比例对应人类手臂的位姿就行。但到了手部环节,问题就复杂多了。

最大的挑战在于异构问题:人类的手和机械手在结构上很难做到同构,手指长短,活动范围都不一样。所以什么映射合理,这个就很主观,很难说清楚。你看今年UCB刚发表的那篇论文,他们还在研究如何设计新的reward函数来优化人手到机器手的映射,整个过程就特别复杂。

莫一林

腿部的遥操作,有比上肢复杂。手臂和手主要还是运动学层面的问题,但一旦加上腿,就完全变成动力学问题了——因为你得考虑平衡、受力这些复杂因素。

说实话,我觉得做腿部遥操作不太现实。就像在游戏里,我们通常也就是用方向键控制移动。真要实时复现腿部动作,比如跳舞时每个弯曲角度都精准对应?这要求实在太高了。

刘斯坦

既然莫老师您已经说到了虚拟和真实的动捕方案,那您要不继续介绍一下您现在工作的这个solution?就是基于视觉的动捕,你用的是VR对吧?

莫一林

其实这要看你最终想控制的产品是什么。我觉得最简单的情况是用一个VR手柄来操作——这种手柄通常能提供六维的位置自由度(也就是三维空间中的位置和姿态)。手柄上还有一些按键、两个摇杆和两个扳机。不过说实话,真要用来控制机器人的话,按键其实不太能用。按键更多是用来做状态切换,比如启动、停止之类的。

其中两个摇杆大概能提供四个线性输入自由度,两个扳机也能作为两个线性输入,总共就是八个线性输入。所以如果你的整个机器人系统——包括底盘、机械臂、末端执行器等等——总共可以用八个自由度来描述,那这时候使用一个VR手柄就是最优选择之一。因为它便宜,而且精度也很高。

比如说我们现在在做的项目里,我们设想底盘可能需要三个自由度:在二维平面上的前后、左右移动,以及旋转;再加上一个上下运动的自由度,总共就是四个自由度。这部分刚好可以映射到两个摇杆上。至于末端执行器,目前是一个夹爪,它只需要一个自由度(开合),或者未来可能会升级为两个自由度的夹爪。这样加起来正好八个自由度就分配完了。

但如果我们稍微复杂一点,比如把末端换成一个仿人手的装置,你会发现自由度一下子就“爆炸”了。因为最简单的仿人手也可能有六个自由度。像早期因时科技的手,每个手指有一个收紧的自由度、一个张开的自由度,整体自由度数量就已经很高了。而现在市面上有不少厂商甚至已经做到了21个自由度——完全模拟人手的程度。

王文灏  

采用纯视觉方案后,将面临控制自由度不足的问题。

莫一林  

我们无法通过单一手柄实现21个自由度的控制——既无法配置足够数量的扳机,也超出操作者的认知负荷。此时最直观的就是直接捕捉操作者手部姿态,类似Vision Pro的设计思路。但Vision Pro存在固有缺陷:单点视角导致手部运动超出捕捉范围时会产生遮挡,特定角度动作无法识别。虽然可通过多摄像头阵列从不同角度同步捕捉来缓解,但系统复杂度显著提升。

更本质的挑战在于移动控制与手部操作的协同问题。当前VR解决方案存在两种局限:一是大空间边界方案需清空物理环境防止碰撞,虚拟场景随用户移动而动态调整,但实际体验割裂;二是类似《头号玩家》的全向跑步机方案,通过机械结构维持用户原地运动,但舒适性与自由度受限。新兴的"法老"系统采用空间二维码全局定位结合Steam相对定位技术,虽能实现精确位置追踪,仍无法解决移动自然性问题。

最终可能回归驾驶舱范式——通过脚踏板等专用输入设备实现移动控制,这种分立式交互设计在可靠性和操作直觉性上更具优势。

赵仲夏  

再补充一个有趣的案例:我们团队开发的"自定义控制器"系统。该系统整合了键盘输入和动作捕捉模块,通过特定手势(如拳头左右摆动控制底盘移动、手腕动作控制机械臂)实现复合操作。但当前设计仍存在移动控制与手部操作的协同难题。

莫一林  

这种设计的核心矛盾在于操作资源分配。当使用灵巧手控制时,单侧手臂需要完全专注于机械臂操作,无法兼顾其他功能。这本质上反映了操作自由度与人体生理限制的冲突。

赵仲夏  

当前解决方案类似于游戏厅的街机控制台——通过键盘实现基础移动和抓取功能,配合自定义输入设备。但现实场景中,人类常需同步完成移动和双手操作(如搬运物品),这可能需要引入智能辅助算法来协调动作映射。

莫一林  

部分场景其实可通过分工设计缓解:例如单臂专用于机械控制,另一臂操作其他功能。更本质的解决方案可能需要建立动作意图识别机制——当检测到操作者前伸手臂时,系统自动触发前进指令。这类设计将人机交互问题转化为动作语义解析的算法挑战。

刘斯坦  

当前动捕方案的实际挑战是?

王文灏  

设备穿戴复杂度。需穿着连体标记服并粘贴反光标记点,整套系统启动校准流程耗时较长。高精度需求场景下,这类光学动捕仍是必要选择。

刘斯坦  

为何不采用莫老师团队的纯视觉方案?

王文灏

实验室场景对精度要求较高,此前采用的光学动捕系统主要用于无人机和机械臂标定。

莫一林

目前现有VR系统仅能提供头部和手部的位置数据,无法完整捕捉身体姿态。例如当操作者扭转身体时,系统无法准确识别这种复合动作。

刘斯坦

那当前是否缺乏适用于机械臂遥操作的理想硬件方案?

莫一林

单纯机械臂控制已较为成熟,但机械臂与移动平台的协同控制仍是未解决问题,相关技术路径尚未收敛。

赵仲夏

遥操作系统本身需要专用硬件架构设计,类似游戏驾驶舱或VR跑步机的集成方案。虽然部分关键技术已突破,但整体系统设计仍处于探索阶段,尚未形成稳定范式。

莫一林

当前技术方案面临两难:要么存在遮挡问题,要么受限于控制自由度。例如VR手柄仅支持8个自由度控制,扩展到全身后,操作直观性显著下降。这些限制本质上反映了人机交互界面的根本矛盾,最终可能需要脑机接口技术实现突破。

赵仲夏

所以这里面我们之前讨论那个aloha,不是讨论那个PI的时候,我们讨论过一个极简的构型。这个构型里面就是底盘就是一个有前后就有前有有两个自由度可以移动的,并且XYZ都是有的。腰关节被放到底盘里面了,或者就是腰关节和底盘会形成一个共用的六自由度。

7

如何评价ALOHA

ALOHA该系统的创新性体现在三个方面:

1. 硬件设计:实现移动操作的最小可行配置;

2. 算法实现:提供端到端的ACT算法框架;

3. 部署方案:验证了复杂任务的工程化可行性。

这些突破促使行业重新思考机器人构型设计方向。

刘斯坦

Mobile Aloha的出现,对我们整个行业真的有影响那么大吗?还有他到底是产生什么样的变化?对,王老师说一下。

赵仲夏

我会觉得他应该如果从回头去写历史,它应该是一个比较重要的事情。但是可能最近我身处其中,我觉得大信息太多了,所以一瞬间我会觉得它淹没在里面好像也没有那么重要,从我的角度看,它应该还是提出了一个很好的包含移动操纵的方案,它很好地诠释了具身这个概念,虽然从历史角度看有些事情必然出现,但不是历史上的每一个分支都被选择了,Aloha给出了一个好玩的方案。

莫一林

他当时那个Mobile Aloha的一天的视频的确很出圈。ChatGPT应该是22年年底的那个时候发布的,大家都非常震撼。到23年,大概2月份吧,大家突然看到一个机器人,就是啥都能干。他那个视频的确上面写的是遥操,但是背后那个操作员被彻底的剪辑下去,你完全看不到那个操作员。所以给大家的感觉就是那个属于机器人的ChatGPT时刻。但是目前看,我们距离那个时刻还稍微有点距离。

赵仲夏

我觉得他给了一个完整的套件出来,包含硬件和算法,至少这个算法它是完整的,它甚至有一个数据标准,但是可能现在讨论数据标准有点早。

刘斯坦

对,那么在它之前遥操是没有标准的,是大家各自闷头在家里造轮子吗?还是在他之前就没有轮子?

赵仲夏

在它之前也没有标准,在它之后还都没有形成一个好的标准。我觉得现在可能是一个很好的标准化的时刻。

刘斯坦

莫老师,你觉得这个Aloha有什么样的意义和影响,你们有没有选择这条路?

莫一林

我们最初是基于ALOHA的构型来设计的,但说实话,我挺讨厌这个构型的——它的工作空间有点反人类。如果你把机械臂当成人的胳膊,Aloha的胳膊肘是向上的。而且如果你在正常人的眼睛的地方放个摄像头,就会发现和视野遮挡非常严重:操作时夹爪会挡住摄像头视野,看不见操作的物体。

ALOHA,它是给一个操作员在比较靠后的位置来看的,而不是通过安装在头部的摄像头来看的,所以可能站在操作员的视角,视野遮挡问题不严重。不过我没实际用过他们的产品,这个只是猜测。

另外,ALOHA采用的是主从臂设计,所以他就绕过了VR操作中的工作空间不匹配问题。VR操作最头疼的就是手伸过去了,机械臂却够不着。而主从臂设计是有物理限制的,让你伸到极限时从臂也动不了,相当于明确了工作空间边界。

8

我们到底需要怎样的

一种人机交互方式

现有交互方式主要分为三类:

1. 传统图像传输(如监控屏幕);

2. VR沉浸式交互;

3. 直接目视操作(如挖掘机驾驶场景)。

刘斯坦

王老师你觉得人机交互的方式,机到人也好,人到机也好,各种方式上有什么区别?他们的长处和缺陷是什么?还是说其实依赖他们各自的使用的场景?

王文灏

VR:他在你周围建一个虚拟世界,信息是最全面的。无论是屏幕也好还是其他方式也好,它只能展示一个2D的信息。那VR里面你可以把两只眼睛的图片分别投到你的两只眼睛上,就可以模拟出一个几乎完全真实的场景。

刘斯坦

我以前是做过手术机器人,有一点就是,如果用那个VR,探针能人体的内壁的局部,就是那种很危险的地方,用VR会有距离的错觉,这就只能通过屏幕了。因为这也要做映射.

赵仲夏

我再给一个观点就是没有一个VR眼镜能够让人长时间佩戴。对,就是它依然没有办法成为一个,它还没有完全解决眩晕问题。对,尤其是远程遥控这个概念,就是它解决不了的,反而就是这个问题。在延时的情况下可能会更加眩晕,就是VR本身没有解决的一个问题。

莫一林

我补充一下,就是屏幕其实也有裸眼3D的屏幕。所以我觉得主要核心是3D vs 2D而不是VR眼镜 vs 屏幕。我们其实前一段时间专门研究了市面上的裸眼3D屏幕,效果很好,但是就是很贵。但是如果你真的不想戴眼镜,你也可以用那个裸眼3D,我感觉就没有那种佩戴不舒服的问题。

3D显示屏

赵仲夏

2016年开发的VR系统采用红外捕捉技术,配合特殊3D屏幕实现交互。这种方案需佩戴偏振夹片,通过摄像头追踪标记笔完成操作,属于早期空间计算技术的一种尝试。

莫一林

关于VR眩晕问题,我们是看了一些研究报告:

1. 延迟阈值:整体系统延迟需控制在40毫秒以内,超过此阈值将引发眩晕;

2. 远程操作瓶颈:云游戏延迟普遍在100毫秒左右,远程遥操作难以突破这个数值。

所以如果机器人有一个很灵活的腰部、颈部,而且这个运动又和人体的运动绑定,人的运动和视觉之间就至少有100ms的延迟,这个会产生严重的眩晕。

我们现有的解决方案是采用VR180广角相机技术,机侧捕捉的是大FOV的画面,然后人体头部的运动影响本地渲染画面,这个motion to glass的延迟就可以降到40ms以内。

在操作范式上,如果能采用这样的方式,体感和效果都会比较好

  • 避免将机器人移动与操作者肢体动作直接绑定

  • 采用游戏手柄或脚踏摇杆等间接控制方式

  • 对头部/腰部关节的控制需持谨慎态度,因其涉及硬件、算法等多维度挑战

刘斯坦

我刚刚在想,就是我们之前聊到的那个高达的操作问题。莫老师您做的是远距离图传对吧?不是那种近距离的。我们在实际场景里看到的那些“遥操”(远程操作),其实都是本地化的,距离也就几米左右,非常近。这种根本不算什么摇操吧。

我在想,真的要实现王老师梦想中的那种——远距离的“摇操”(遥控操作),最大的挑战到现在其实还完全没解决,应该就是图传这一块对吧?

王文灏

我会觉得有太多的挑战了,以至于这个事情的解决的可能性不会像大家理想中那么高,不会真的有身临其境达到百分之百的效果。

首先VR要解决眩晕问题,要解决通信上的延迟问题。VR的眩晕问题是VR厂商这么多年以来都没有办法完全解决的问题,图传的延迟问题是视频会议软件解决了这么多年都没有解决的问题。所以我们能做的极限就是把它们加在一起。加在一起会对操作效率有多大的损失,那就是一件未可知的事情。

远距离遥操作面临多重技术障碍:

1. VR眩晕问题尚未根本解决

2. 通信延迟难以突破(当前视频会议技术仍受限于此)

3. 系统叠加后的操作效率损失难以预估

实际应用效果与理想状态存在显著差距,这些底层技术限制短期内难以突破。

莫一林

其实之前提到的挖掘机案例很有意思——就像赵老师团队分享的,它能实现良好操作效果的关键在于长期培训。这个场景很特殊,因为'人机映射'问题已经被天然解决了:驾驶舱1:1复刻,不需要机械臂转换,也避开了复杂的IK解算问题。

据他们实测,熟练操作员能达到现场操作85%的效率。但如果是通用机器人遥操作系统,我估计能做到50%就不错了。

这让我想到一个有趣的类比:我们现在的遥操作系统,就像一百年前的纯机械汽车——方向盘和车轮是刚性连接的,没有任何电子辅助。虽然这种'完美映射'的机械感很纯粹,但现代汽车早就不是这样了。以底盘系统为例(这块刘老师更专业),现在至少都标配ESP,EBS也很常见了。即便没有完全自动驾驶,各种辅助系统已经无处不在。

我认为遥操作的未来演进也会遵循这个路径。举个例子:我们发现现在对操作员来说最难的是深度感知。虽然上下左右移动很容易,但前后的深度判断经常出错——你以为对准了,实际上没对准。但站在机器视角,末端摄像头其实能清楚判断位置是否合理。这时系统完全可以像汽车ESP那样,自动微调深度参数。

所以未来的遥操作系统,应该是一套具备智能辅助功能的平台:

1. 基础层保持精准映射

2. 上层叠加类似ABS/ESP的智能辅助

3. 在关键环节(如深度感知)提供自动补偿

这样的混合架构,既能保留操作手感,又能显著提升效率。

刘斯坦

我有个暴论了,原本搞自动驾驶喜欢搞这种生成式模型的仿真。我能不能这样做,不如两边实时建模,对吧?我用一个模型实时建模,搞一个世界模型不就行了?

赵仲夏

它有点像是两个世界模型(world model)在互相产生交互——那边是一个真实的世界,这边是一个通过通信建立起来的镜像世界,就像是在确认彼此存在的平行宇宙一样。

刘斯坦

因为人的大脑,并不是真的在“实时看到”物体。根本不是那么回事。是你脑子里其实早就有一个记忆模型,你会自己去 predict(预测)。就像听一首歌,它在你脑子里本来就有个旋律了,现实的声音只是不断去滤波、去修正它。对吧?就是这种感觉。

那既然这样,为什么我们不能在我的操作端这边也搞一个 World Model?我不是说在本体这边,而是说我在操作者这边放一块 GPU,一块巨牛逼的 GPU,随便什么型号都行,只要能跑得动。然后我就在遥操员的本地实时地去预测这个世界的下一个状态,生成一个 world model,用来补偿通信延迟。

这样哪怕那边传回来的画面有点 delay(延迟),我这边也能靠预测把中间的信息补上。是不是这个道理?

赵仲夏

我非常认可这个观点,这真的太牛了。但这里面其实还有一个非常大的问题,就是 World Model 和 具身之间的关系。

你知道吗?视频模态、World Model 和具身智能这三件事其实是锁死在一起的。某种程度上来说,如果你有了一个足够好的 World Model,你就几乎能解决具身智能的问题;反过来,如果你有了真正的具身智能,那你也基本上解决了 World Model 的构建问题。

它们有点像互为前提的关系。如果你真有一个完整的 World Model,那你就不需要再去“对齐”这些东西了,对吧?那也就意味着 AGI 已经实现了。

具身智能之心Gloria

自驾人觉得自己刚看到希望,又暗下去了。

9

我们需要的遥操:

有参与、有互动、有感受!

刘斯坦

最后我们才说,要不我们就直接跳到最后一部分,还是那句话,刚才聊了半天遥操作,其实也没完全说清楚。

问题是这样的:机器人从“机器”走向“人”的过程中,遥操作是不是一个必经阶段?对吧?不管是从数据采集的角度,还是从技术演进的角度来看,它都是绕不开的。

而且我们刚才也提到了,遥操作不只是为了采集数据,它本身也是机器人作为“分身”存在的一种方式,这同样是一个非常重要的方向。

所以从未来的角度看,即使有一天我们真的实现了全自动、全自主的 AAGI 级别的机器人,遥操作可能也不会消失。它也许不再用于训练或数据采集,但在“分身”这个应用场景里,它依然有用武之地。

也就是说,摇操作到最后,可能并不会被完全替代,而是会一直存在下去。

赵仲夏

你要知道,最终所有的技术其实都是要服务于人的。人并不仅仅需要一个系统帮他干活,他还有更深层的需求——他它需要去“感受”,需要亲自去完成一些任务,或者至少是以一种自由、主动的方式去参与任务,而不是单纯地发号施令、让别人或机器替他做完。

所以我一直觉得,哪怕AGI或者其他智能系统发展到了极致,它也不能完全替代“我来做”的这种需求。或者说,到最后我还是希望我不只是在旁边指挥,而是我自己能去做点什么。

所以其实我们始终还是需要这样一种交互方式,一种让人能够介入、参与、甚至主导的系统。这不会因为 AI 够聪明就消失。

莫一林

我觉得你说得对,哪怕是有 AGI,它也还是需要一些输入的。你不能说,我现在想要一个管家机器人,然后就完全放手不管了。他不可能像个人一样,自己想怎么收拾你的屋子就怎么来,那我肯定接受不了。

所以你肯定还是要跟他交流的。但问题就来了:你怎么跟他交流?用什么方式传递信息?

从最广义的角度来说,遥操作其实就是一个除了语言之外,传达意图的方式之一,对吧?

比如说我有时候在家,我妈让我做饭,她一开始会指导我怎么做,但讲着讲着就不耐烦了,最后干脆自己上手把所有东西都做了。这说明什么呢?就是有些事情已经没法靠语言描述清楚了,她只能通过“自己动手”来表达她的意思。

我觉得机器人未来也会遇到类似的问题。

我一直也在想这个问题,比如说你想让机器人帮你拿桌上的一杯水。你是会跟它说:“请帮我把那杯水递过来”吗?但如果桌上有很多杯子呢?你可能要花很多时间去描述到底是哪一杯。

而换一种方式,如果你直接伸手去指一下、或者做个动作示意,机器人就能理解你要的是哪个杯子。这种情况下,动作反而比语言更高效。

所以从这个角度看,人机交互的成本高低,其实很难一概而论。语言不一定比动作更省事,动作也不一定比语言更模糊。它们各有适用的场景。

刘斯坦

王老师你其实并没有追求分身,你追求的是一个听你指挥的本体。对吧?

王文灏

语言是一种方式,手势是一种方式,眼动是一种方式,他需要会察言观色。

刘斯坦

所以到了未来,尤其咱们谈到终局,可能我们现在所说的这种图传,或者外骨骼、动捕这些,可能就不存在了,更多的是语言,神情或者是一个示意,对吧?

莫一林

从人体运动来看,完整的动作链条是这样的:脑电→肌电→肌肉运动。目前我们捕捉的人体运动信号,实际上都是这个链条最末端的肌肉运动表现。所以从技术演进的角度来看,终极的解决方案可能还是脑机接口。

10

如果机器人有操作系统

关于机器人操作系统的未来构想:

1. 历史参照:Windows的价值在于标准化人机交互,而ROS当前局限在于以功能模块(建图、定位等)为核心,而非以人为中心;

2. 系统愿景:未来需出现类似安卓的机器人操作系统,实现硬件/软件标准化,并开发配套工具链。这本质上是"ROS 3.0"的进化方向;

3. 技术分歧:

  • 传统派认为智能应诞生于人机交互层(类似PC范式)

  • 新兴观点主张将机器人整体视为Agent(类似大模型调用工具)

当前困境在于机器人软件工程体系尚未定型,导致:

  • 标准化生态建设缺乏清晰路径

  • 工程化人才招聘方向模糊

赵仲夏

我之前跟两位老师聊的时候也提到过一个观点:我们觉得 Windows 对 PC 的意义,其实就在于它是一个标准化的人机交互系统。它把硬件和软件统一起来之后,一切就都开始围绕“服务于人”来展开。

这个点我觉得特别有意思,而且我自己以前做过相关背景的工作,所以对这块理解得也比较深。

说到机器人系统,像 ROS(有人叫 Rose),它的最大问题在于它是把一套“应用”强加给了机器人本身——比如建图、定位、导航、路径规划、控制这一整套东西。这套系统的核心目标不是服务用户,而是服务这整套功能模块本身。

而我是这么想的:未来应该会出现一个像安卓或者微软那样的操作系统。它不仅能够标准化软硬件,还能提供一系列开发工具,真正做到“以人为中心”。这就是我比较老派的想法吧,我觉得这可能是所谓的 ROS 3.0,或者说机器人的安卓系统。真正的智能,应该是诞生在人和系统之间的交互中,而不是仅仅存在于机器人本体里面。

不过我也注意到,在智源这边有几个挺有意思的年轻人,它们是从另一个角度来看这个问题的。他们会从 Agent 的角度切入,希望把整个机器人做成一个完整的 MCP系统。虽然我对这个方向还没有完全吃透,但我隐约觉得网页端、PC端、手机端都已经可以看作是某种意义上的 MCP,但机器人还没到那一步。所以他们喜欢用 MCP 这个理念来讲故事。在这种架构下,Agent 就像是一个“大脑”,通过 API 接口调用各种工具,把所有的能力都封装成一个个可调用的服务。有点像现在的大型语言模型,可以通过接口调用各种插件。所以这个方向我还在摸索,不太敢下定论。我觉得两位老师在这方面应该比我讲得更清楚。

因为我也一直在思考,未来的机器人系统会不会最终演变成一种系统级的存在?这个时候,真正做机器人软件的人就会变得特别关键。我以前在做具身的时候,遇到过很多专注于机器人工程化、软件化的团队。那时候我甚至一度不愿意招这类人,但后来回头再想想,可能是因为我当时自己都没想清楚,到底这个系统层面的东西它是什么样的。现在回想起来,这其实就是我的一个模糊认知。至于具体怎么发展,我想孟老师他们可能更有发言权。我记得他曾经也提过类似的观点,就是希望用自己的机器人本体去推动一些更标准化、生态级的东西出来。总之,这部分我还描述得不是很清楚,但我相信两位老师应该会有各自不同的理解和看法。尤其是在标准、生态系统这种层面,他们肯定比我看得更远。

王文灏

在在PC时代可能会有一个windows,但是在PC之后不一定会有windows。当然我们都很希望有一个标准化的生态系统,但是你有没有想过的是,为什么在车端似乎没有这样。

刘斯坦

车端大家一直在尝试,但是还没有特别成功。

赵仲夏

我会觉得机器人应该对应的是那个车。机器人未来生态位跟车的生态位应该是类似的。

刘斯坦

车有很多操作系统,各有各的长处和短处。

赵仲夏

对,眼镜对应的应该是手机和PC这是我的一个感受。对,就是因为我做我做眼镜和机器人,我会感觉机器人像车,眼镜像那个平台,但我又觉得机器人可能会产生操作系统。因为机器人它生态不够,它的商业化不够,他没有车那么有用。在当前这个情况。

王文灏

我觉得整体趋势是大家变得越来越封闭。

刘斯坦

车也是一样,就基本上每一个成熟的车厂都有它自己的中间件。具身这边其实还可以,你有个ROS,至少有个ROS对吧?而车的话大家都有自己的中间间,这个很混乱的,那就有可能未来可能ROS2大家觉得不够了,你自己造自己的ROS2.x啥的都有。

王文灏

对,大家会造,但不一定他会像柳树车库当时一样。

刘斯坦

虽然不是说中间件这个方面有什么进展,可能就不太会开源了。因为主要是服务于自己的需求吧。

王文灏

但是智元确实开源(笑)

刘斯坦

你们是开了开源了自己的中间件是吧?

莫一林

我整体的感觉是,虽然从外观上看,各家的机器人本体看起来都差不多,但只要你一往里深入,比如你想把一套控制算法适配上去,就会发现底层接口这些细节其实差异非常大,工作量也非常重。

至少从目前来看,不同厂家用的电机、驱动器、通信协议等等,差别还是挺大的。你要真正去做一些细节层面的开发时,其实是一件挺痛苦的事情。

所以我也挺希望未来能有一个相对统一的平台或者系统,能让大家少折腾底层的东西。比如说我们做控制算法的,就希望能写个 PID 就完事了,而不是天天对着各种复杂的电机接口去调参数。

总结一下,我觉得无论是我个人,还是我现在所在的公司——灵御智能 ,我们都认为遥操作在整个产品体系中是非常核心的一环 。

从哲学层面上来说,我们的设计理念就是“Design for Teleoperation ”(为遥操作而设计)。我们认为,遥操作应该放在第一位。

这就像是做自动驾驶之前,你得先有一辆足够好开、足够可控的汽车。然后在这个过程中,由人类驾驶它去收集数据、训练模型,再去实现自动驾驶。这才是一个比较合理的演进路径。

所以最后稍微带个货,我们做的第一款产品,英文全称叫TeleAvatar,简称就叫Ta,目前已经发布啦。欢迎大家关注和支持!详情见官网:

https://www.dexteleop.com/

赵仲夏

这次圆桌,我觉得最好玩的点就是刘哥问我们遥操终局的时候,我跟文灏同时说了一句不知道。在聊一个遥操的圆桌上面,对遥操非常熟悉的人,对遥操的未来的回答是:不知道。

具身智能之心  Gloria

所以。To be or not to be!That’s a question!

感恩相遇,这场奇妙的圆桌!

本文是 [具身圆桌系列] 的第二篇。在第一篇《具身下一站,我们究竟需要怎样的本体?》中,我们探究了到底哪种构型才是具身从业者所需要的,感兴趣的朋友可以回顾一下。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值