一年发3篇TRO的“刺头”是怎样炼成的?

香港城市大学的殷鹏教授带领团队一年内发表了三篇T-RO,展现了他在机器人领域的突破。他坚持通用人工智能的研究,尽管早期面临困难,但最终得到了认可。殷鹏分享了他的科研经历,包括为NASA开发的定位系统,以及对AGI未来的展望。

“世界上最成功的机器人,是人类本身。”

香港城市大学MetaSlam与GAIRLAB的创始人殷鹏教授,在知乎一则「世界上最厉害的机器人是什么」的问题下,写下了这样一句回答。

从小就痴迷于机器人的殷鹏,在2023这一年的时间里带领团队发表了3篇T-RO,这位90后的年轻教授展现出他在机器人领域中突飞猛进的势头,尖锐有力,就如一个“刺头”。

一周前深蓝AI的小编联系到殷鹏教授,与他展开了一次关于机器人探索之路的共同回溯与思考。随着通用人工智能的破圈、机器人技术的更新迭代,这位机器人“刺头”攀登科研山峰的兴趣愈加高涨。一直执着于做通用机器人工作的他,看到了这片海域的另一边。

1. 属于殷鹏的AGI之旅

深蓝:在萌生专访的想法之后,我们就去互联网检索了您的相关信息,浏览您的个人知乎主页时发现:您置顶的实验室招聘文章的封面是「进击的巨人」这部动漫。因此在开篇想向您提出一个与「科研」相关性或许不是很大的问题:在工作中或是日常生活中,您觉得自己像《巨人》中的哪个角色呢?

殷鹏:其实很难专门对标到哪个角色上,将这张图作为封面其实更想表达的是团队,而非个人。当时我们正处于一个十分「致命」的阶段——同一时间处理3篇文章的收尾工作。但团队规模小、工作量庞大,完成这3项工作对我们来说可以算是“极限挑战”。正如《巨人》这部动漫里所呈现的世界观一样,人类与巨人在形态、力量上有着天壤之别,我们以少数人的规模挑战着庞大又繁杂的工作。然而就算力量对比如此悬殊,主角团最后还是获得了胜利。同样地,我们团队也完成了3篇论文最终的发表工作。

若从个人角度出发,虽然我和艾伦(《巨人》中的主角)一样是团队中的领导者,但他是个非常复杂的人:集优越的领导力、卓越的见解、偏激的性格于一身,我与他有很多不同之处。

深蓝:可以向我们简单介绍一下您过往的科研经历以及目前的研究方向吗?

殷鹏:2013年我从哈工大硕士毕业后就去了沈阳的自动研究所读博士,接着在2017年 9月份的时候去了美国。当时我在读博三,希望能专攻AGI、机器人定位导航与决策这一方向(直到现在我依旧专注于这一方向)。为了接触到该领域更加权威的技术与更顶流的学者,研究所的导师建议我出国深造,“去看看外面的世界”,因此17年的时候我就去了CMU。

初到CMU的那几年我的学习生涯并不顺利,局限于当下的时代背景,即便是CMU这样世界顶尖的学府,也有它自身在学术研究方面的「传统」。我那时的想法过于“前卫”,自然就与这些「传统」产生了冲突,所以在CMU最开始的三年,我基本上没有发表什么paper。

当时我在CMU的导师Howie Choset在做蛇形机器人方面的研究,同组的伙伴们基本上也都在做这方面的工作,只有我“背道而驰”,和Howie持不同意见,自然也没有得到太多支持。

不过好在坚持都有意义,2023年我们成功地发表了三篇TRO,Howie 也给予了肯定。这也给我一个启发:面对权威学者时,我们需尊重但并非盲从。在科研工作上要抱有韧性,当下一刻不被认同不要慌张,只要这项研究在业内有其用武之地,那必然会有被发现且认可的契机。

2. 从“胚胎”到“成熟”:一年三篇TRO的诞生历程

深蓝:请向我们分别介绍一下2023年您在TRO发表的3篇论文吧。

殷鹏:这三项研究相互串联,是一个渐进的过程。


▲图|三项研究总体发展历程

第一项研究是HD LOCALZATION,也就是20年公布的NASA火星降落定位指定方案。这套系统帮助NASA的飞行器实现高精度的定位导航功能,使飞行器能够在火星上精准降落在标定点几百米甚至一两百米以内的地方。这一工作能够帮助火星、月球等星球移民计划的物资投放做到基本的精准。

▲图|HD LOCALZATION概述

第二项研究是机器人高精感知建模,也是2019年我们参加的DARPA SubT地下挑战比赛获得冠军的作品。其核心的意义是为机器人构建出一套通用的技能系统,这个工作耗时4年之久,几乎与第一项研究同时展开的。


▲图|机器人高精感知建模概述

第三项研究则是机器人通用世界模型,也是前两项研究的延伸。这一工作可以让机器人的记忆持续地“进化”,就像无人驾驶汽车一样,在没有人为干预的情况下,机器人就能自动地提升感知与定位能力。


▲图|机器人通用世界模型概述

总而言之,第一个研究的核心是SLAM中的定位能力,第二个则是SLAM中的建模能力,最后一项工作则是SLAM中的终身学习能力。它们都是围绕SLAM这一问题来展开的。

深蓝:这三项研究分别是在什么样的机缘巧合下开启的?从准备到项目成型,前前后后都分别花了多久的时间?

殷鹏:这三项研究开始的机缘都是因为NASA火星。我们从2018年,就投入到了前两项工作中,直到2020 年有了眉目。但由于NASA的项目涉及多方机构,且在后续又同他们有了新的合作——也就是第三项研究:机器人通用世界模型。因此,直到2023年为止,我们就一直在等待与完善,三项工作基本上都是在2022年彻底收尾,2023年正式公开发布。

深蓝:在实验过程中最让您难忘的是什么?

殷鹏:其实筹备这几项工作的每一个时刻对我来说都意义非凡,如果一定要挑出某一点的话,依旧围绕“坚持”这个话题。

由于我当时在CMU的困境,这三项工作在初期自然是不被看好的。当我跟Howie提出想做多机定位建模的AGI工作时,他不出所料地给了我‘ It's impossible.’的反馈。那时业内的普遍认知还是基于20世纪初的早期SLAM理论,Howie觉得我应该顺应当下,去做一些主流的研究,而不是去执着于攻克极少被提及的冰山一角。这样的“冲突”持续了三四年之久,再加上我当时也只是一名学生,可想而知这整个研究过程异常艰辛。

其实Howie的出发点是出于好意,他的想法可能比较“稳妥、安全”,但我还是坚持了自己的想法,最终的结果也证明了我的坚持是有意义的,同样也得到了Howie的认可,直到现在我们依旧保持着联系,他给予了我很多肯定。

深蓝:这三项研究都带来了什么影响呢?

殷鹏:最直接的就是对航空领域的影响。我们为NASA做的这套定位系统,是探月及外星移民畅想在算法方面的一大突破。一直以来人类都有移民外星球的构想,要实现这一构想就得在火星或者月球上建立太空基地,此时就会涉及到物资投放的问题,但诸如火星、月球的外星球没有稳定的地磁,也就是说,在这些星球上会丧失在地球上拥有的定位通讯功能,这套机器人定位系统便应运而生。

这三项研究同样也给搜救领域带来了很大助力。让机器人的功能不只局限于实验室这一缕方寸的成功,而能在诸如外界灾害场所甚至是宇宙这些环境里得到充分发挥。

3. AGI“破圈”:是起点,也是最好的时代

深蓝:致力于研究机器人这么久,这一路走来,回首往昔,如果把机器人的研发历程比作一座山峰,您认为您目前站在了这座山峰的什么地方呢?

殷鹏:我依旧在山脚、在起点。

从中学时代起我就想做通用机器人的工作,AGI的概念其实在那时就出现了,最近十年才顺时而火。而我们所做的SLAM、导航、深度学习等一系列相关工作,都是为了通用机器人这一终极目标。

按照AGI的角度来审视我已经完成或是目前正在进行中的工作,都只是刚入门,并非精通。如果把机器人领域比作一座山峰,我距离半山腰还有很长的一段路要攀登。因为进步的不只是我们,还有这座山峰本身。随着时代发展,AGI所涉及的工作会越来越多,复杂度也会越来越高。就比如早期学好视觉方面的知识,做好视觉SLAM的研究,在当时可能就是“行家”,但随着时间推移,我们就会发现可能激光SLAM会更好、NeRF更上一层楼……池水变成了汪洋,我们也只是其中一个参与者。

 而我们当下的研究也只是为AGI这一终极研究目标所打下的基础,未来还有许多工作需要去拓展,这条山脉还需要持续攀登。就像游戏里升级打怪一样,如果轻易就能满级不就失去了乐趣吗?没有结局的故事或许才最完美。

深蓝:您曾经在知乎写过这样一句回答:“世界上最成功的机器人是人类。”可以向我们详细解释一下这句话的意思吗?

殷鹏:这其实是一个即兴回答。

为何我们要称呼其为「机器人」,而非「机器狗」、「机器猫」呢?其实都源自我们对机器人赋予了「类人」的期待。

很早以前,“Robot”是捷克语“robota”(强制劳动)、“robotnik”(奴隶)的变体。由此开始,“机器人”这一概念便被定性为辅助人类、分担人类负荷的附属品。 可见,在功能方面,机器人拥有着成为一个具有智慧的类人个体的期待。

从生物学的角度出发,如果我们未来实现了像科幻影片中所描述的——将人类的某一身体部位换成机械构造,那么这一个体该被称作「人」还是「机器人」呢?

自然,如果未来机器人进入了千家万户、可以辅助人类的日常生活,拥有了类人的思想与行为,那么“类人”的它们或许就会被囊括在“人类”的范畴中。而当机器人可以被称为「人类」时,人类自然也可以被反推为「机器人」。

深蓝:在您的畅想中,未来世界里通用机器人与人类是否能够并行不悖呢?

殷鹏:机器人与人类共同相处的那一天其实并不遥远。从现在追溯过去的十年,我们会发现当下的一些技术与应用,在那个时代甚至是“异想天开”。各个社交平台直播电商的发展、手机等智能电子设备更迭速度越来越快,这些科技的发展都是从前始料未及的,但的确成为了触手可及的现实。

虽然「未来」依旧存在变数,但从大模型的发展能够洞察到:目前AGI在文本上已具备了基本的通用性,那么诸如机械臂、陪伴型机器人等与物理世界有着交互的AGI,不久之后也会呈现在大众面前,赛博朋克的社会外貌不再是一个畅想。

深蓝:作为“一年发表了3篇TRO的机器人刺头”,请给青年学者们献上一些“有效鸡汤”吧。

殷鹏:首先想告诉各位,当在探索科研的过程中遇到阻碍,不要焦灼,这都是正常的。

在我们成长的每个阶段,总会碰到各种各样的难题,比如资源不匹配、信息太闭塞、想法不匹配……但如果你对科研抱有极大的兴趣,那么请一定坚持下去,无论是选择出国进修还是探访各方大佬,你必定会找到最优的渠道来完成目标。

反之,如果在这个过程中你感受到的痛苦远远超出乐趣,那么改变赛道另择良木而栖,也是十分合理的选择。结束漫长的学术生涯,去就业亦或是探索其他领域都无可厚非,人生有许多支线,不必死磕一方田地。

● ● ●
【关于MetaSLAM】
MetaSLAM(https://metaslam.github.io/)是2022年由殷鹏教授带头成立的一个国际性合作组织,成立于美国CMU,旨在探索推进当前机器人领域前沿的Localization,Mapping, Exploration,Decision Making等方法或者系统,并跟NVIDIA、Microsoft、Bosch和美国各大高校长期合作。

如各位有意加入,欢迎投递简历👇
pengyin@cityu.edu.hk 
ryanzhao9459@gmail.com。

采访|Los
撰文|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。
 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值