万字总结83篇文献:深度强化学习之炒作、反思、回归本源
道翰天琼认知智能机器人平台API接口大脑为您揭秘。深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。
1
深度强化学习的泡沫
2015 年,DeepMind 的 Volodymyr Mnih 等研究员在《自然》杂志上发表论文 Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型 Deep Q-Network(DQN),在 Atari 游戏平台上展示出超越人类水平的表现。自此以后,结合 DL 与 RL 的深度强化学习(Deep Reinforcement Learning, DRL)迅速成为人工智能界的焦点。过去三年间,DRL 算法在不同领域大显神通:在视频游戏 [1]、棋类游戏上打败人类顶尖高手 [2,3];控制复杂的机械进行操作 [4];调配网络资源 [5];为数据中心大幅节能 [6];甚至对机器学习算法自动调参 [7]。各大高校和企业纷纷参与其中,提出了眼花缭乱的 DRL 算法和应用。可以说,过去三年是 DRL 的爆红期。DeepMind 负责 AlphaGo 项目的研究员 David Silver 喊出“AI = RL + DL”,认为结合了 DL 的表示能力与 RL 的推理能力的 DRL 将会是人工智能的终极答案。1.1 DRL 的可复现性危机然而,研究人员在最近半年开始了对 DRL 的反思。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节,很多算法都难以复现。2017 年 9 月,著名 RL 专家 Doina Precup 和 Joelle Pineau 所领导的的研究组发表了论文 Deep Reinforcement Learning that Matters[8],直指当前 DRL 领域论文数量多却水分大、实验难以复现等问题。该文在学术界和工业界引发热烈反响。很多人对此表示认同,并对 DRL 的实际能力产生强烈怀疑。其实,这并非 Precup& Pineau 研究组第一次对 DRL 发难。早在 2 个月前,该研究组就通过充足的实验对造成 DRL 算法难以复现的多个要素加以研究,并将研究成果撰写成文 Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control[9]。同年 8 月,他们在 ICML 2017 上作了题为“Reproducibility of Policy Gradient Methods for Continuous Control”的报告 [10],通过实例详细展示了在复现多个基于策略梯度的算法的过程中,由于种种不确定性因素导致的复现困难。12 月,在万众瞩目的 NIPS 2017 DRL 专题研讨会上,Joelle Pineau 受邀作了题为“Reproducibility of DRL and Beyond”的报告 [11]。报告中,Pineau 先介绍了当前科研领域的“可复现性危机” :在《自然》杂志的一项调查中,90% 的被访者认为“可复现性”问题是科研领域存在的危机,其中,52% 的被访者认为这个问题很严重。在另一项调查中,不同领域的研究者几乎都有很高的比例无法复现他人甚至自己过去的实验。可见“可复现性危机”有多么严峻!Pineau 针对机器学习领域发起的一项调研显示,同样有 90% 的研究者认识到了这个危机。机器学习领域存在严重的“可复现性危机”[