看看上世纪90年代的RL综述论文吧_
Reinforcement Learning:A Survey
作者:Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore
摘要
这篇文章从计算机科学的角度对强化学习这一领域进行了研究,并且尽量写的让熟悉机器学习的相关研究者能够较为容易的读懂。我们研究了强化学习这一领域历史上的基础,也广泛总结了当今研究的主流选择。强化学习是关于智能体(agent)通过与动态环境进行不断交互,从而在“尝试-错误”过程中学习正确行为的问题。这篇文章与心理学上的研究有一定的关系,但更值得注意的是,这里的强化与心理学上的强化是很不一样的。这篇文章主要讨论强化学习,包括探索与利用的权衡、通过马尔科夫决策理论(Markove decision theory)建立该领域的基础、通过延迟奖励进行学习、构建经验模型加速学习、标准化与结构化、处理隐藏状态等。文章结尾对几个已经实现了的强化学习系统的的综述以及目前可用的模型进行了评估。
1 引言
强化学习最早可以追溯到早期控制论以及统计、心理学、神经科学、计算机科学等学科的一些研究。在最近的五到十年中,强化学习在机器学习和人工智能研究者中得到了大量的关注,它描绘了一种在不进行具体指导的情况下通过对智能体进行奖励与惩罚而完成任务的编程方式。但是完成这一想法有着巨大的计算困难。
这篇文章从计算机科学的角度对强化学习的研究历史和当前研究状况进行了综述。我们以较大的视角对强化