在AI领域,深度强化学习(DRL)是个时髦的热词。
深度强化学习使得机器人能够直接从现实世界中的经验和交互中自动学习,因为它能够使用通用神经网络的特征表示来处理复杂的传感器输入。
然而,许多现有的DRL算法需要数天或数周(或更多)的真实数据才能收敛到期望值。此外,这样的系统可能难以部署在复杂的机器人系统上(例如多足机器人),也存在在探索阶段容易损坏、超参数难以调整,并且出于对各种安全的考虑可能会有更多的限制等问题。
不久前,加州大学伯克利分校和谷歌大脑联合发布了Soft Actor-Critic(SAC)——这是一种稳定而有效的DRL算法,适用于真实世界的机器人技能学习,这正是机器人实验所要求的。重要的是,SAC的效率很高,能够在几个小时内解决实际的机器人任务,并且只要设置一组超参数就能使它在各种环境中工作。据悉,SAC 是当今最有效的无模型算法之一,使其特别适合现实世界的机器人学习。
本文将讨论SAC背后的一些研究,并介绍谷歌最近在做的实验。
对在真实世界的机器人学习的要求
真实世界的机器人实验面临一些重大挑战,比如硬件失效和手动重置导致的数据流持续中断,以及需要让探索学习过程顺畅,避免机械磨损或者撞击破坏。这都对算法理论和应用增加了额外的限制,包括(不限于)以下几个方面:
· 高效率的样本,从而降低学习时间;
· 尽量少的调整超参数;
· 使用在其他场景中采集到的数据进行学习(也被称作“解耦策略”off-policy);
· 确保探索学习过程不损坏硬件。