尽管过去几年机器人学习取得了长足的进步,但在尝试模仿精确或复杂行为时,机器人智能体的某些策略仍然难以果断地选择操作。格物斯坦表示:每一种方法都需要精确的移动和修正。机器人必须只遵从其中一个选择,还必须能够在每次滑块滑得比预期更远时改变方案。尽管人们可能认为这种任务很简单,但对于基于学习的现代机器人来说,情况往往并非如此,它们经常要学习被专家观察员描述为不果断或不精确的行为。
我们的方法是一种行为克隆,可以说是让机器人从演示中学习新技能的最简单方法。在行为克隆中,智能体学习如何使用标准监督学习 (Supervised learning) 模仿专家行为。一般来说,行为克隆涉及训练显式神经网络(如下方图左所示),该网络接收观察并输出专家操作。
尽管存在局限性,但带有监督学习的行为克隆仍然是机器人从人类行为示例中学习的最简单方法之一。少儿机器人教育正如我们在这里展示的,在机器人进行行为克隆时,将显式策略替换为隐式策略,有助于其克服“不能决断的困难”,让它们可以模仿更加复杂、更加精确的行为。虽然我们这里的重点是机器人学习,但是隐式函数对明显不连续性和多模态标签建模的能力,或许在机器学习的其他应用领域也能带来更广泛的好处。
人工智能的真正难题在于理解自然智能的工作原理。开发人工智能与制造人造心脏不同,科学家手中并没有一个简单而具体的模型可供参考。我们知道,大脑中含有上百亿个神经元,我们的思考和学习是通过在不同的神经元之间建立电子连接来完成的。但是我们并不知道这些连接如何实现高级的推理能力,甚至对低层次操作的实现原理也并不知情。大脑神经网络似乎复杂得不可理解,完成机器人教育目的。 因此,人工智能在很大程度上还只是理论。科学家们针对人类学习和思考的原理提出假说,然后利用机器人来实验他们的想法。
人工智