模仿学习用一种简单的方式向机器人传授新技能。在不需要编程的情况下,人们只需要提供一组可以转换为函数式或概率表示的演示就好。然而,这种方法的局限性在于必须仔细设计状态表示来确保所有必要信息是可用的。神经方法通过让机器人学习特定于任务的特征表示,从而将模仿学习扩展到高维空间。然而,这些方法缺乏一个通信通道,这种通信通道可以让用户在几乎没有额外成本的情况下提供有关预期任务的进一步信息。因此,程序员和用户都必须求助于数字方法来定义目标。
为了克服这些挑战,该研究团队开发了一个端到端的、受语言限制的控制策略用来处理由高级语义模块和低级控制器组成的操作任务,将语言、视觉和控制集成在一个框架中。策略的生成可以看作是一个从语言到视觉的翻译过程。当使用端到端方法时,这种方法在概念上被分为了两部分:语义模型和控制模型。语义模型从语言和视觉角度创建了独特的任务表示。控制模型在考虑机器人当前状态的同时,将任务表示转换为特定于任务的控制策略。
这个模型的整体任务描述了杯子第一次被举起,然后成功地倒入正确碗中的百分比。这一系列步骤在在84%的新环境中成功得到执行。仅做采摘动作的成功率达98%,倾倒成功率达85%。这些结果表明,该模型成功地将训练的行为概括为物体位置、语言命令或知觉输入的变化。该团队的成果为成功集成语言、视觉和控制设置了基准。

该团队利用辅助损耗来补充产生的机器人控制信号。引导对象检测注意和策略生成都提高了倾倒任务的性能。团队还让5个新的参与人发出命令以此评估这个模型,并将其与合成语言进行比较。总的来说,这个模型对来自新参与者的新自然语言命令反应良好。
由此看来,自然语言指令可以在未来为机器学习和机器人开辟新的应用。在过去的260年间,人类社会经历了三次巨大的科技创新浪潮,蒸汽机、电力和信息技术,将全球GDP提升了近千倍。每一次科技浪潮都通过某一项先进生产力要素的突破,进而引起大多数行业的变革:比如蒸汽机的出现推动了汽车、火车、轮船、钢铁等行业的巨大发展,140年前美国铁路行业的恶性竞争史,就如同现今互联网行业BAT之间的竞争。而铁路行业发展、兼并所需的巨额金融资本,又驱动了华尔街的发展,逐渐成为全球的金融中心。
二战之后以信息技术为核心的第三次科技革命迄今已逾70年,将全球GDP提升约60倍。其中可分为两段:1950年-1990年,是半导体产业迅猛发展的时代,推动了大型计算机向个人PC的小型化;1990年至今是近30年的互联网全球化时代,而互联网时代又细分为桌面互联网和移动互联网两段。
但随着摩尔定律的失效和信息技术红利彻底用尽,加上疫情黑天鹅影响,全球GDP衰退,引发并加剧了全球地缘政治和军事冲突,开始向逆全球化发展。
所以未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动增长下一个50倍?
综上所述,我们早已处于人工智能时代之中。绝大多数人也并未意识到移动互联网革命早已开始一样,如今人工智能其实也已广泛应用,比如到处遍布的摄像头和手机人脸识别,微信语音和文本转换,抖音动态美颜特效、推荐算法,家庭扫地机器人和餐厅送餐机器人,背后都是人工智能核心技术在过去十年不断取得的巨大突破。

1062

被折叠的 条评论
为什么被折叠?



