Introduction
当你听到“强化学习”这个词时,你首先想到的是什么? 最常见的想法是 - 太复杂而且数学太多。 但我在此向您保证,这是一个非常迷人的研究领域 - 我的目标是将我的文章中的这些技术分解为易于理解的概念。
我相信你一定听说过OpenAI和DeepMind。 这是两个领先的人工智能组织,他们在这一领域取得了重大进展。 OpenAI机器人团队能够击败Dota 2中的业余游戏玩家团队,这是一款非常受欢迎且复杂的战斗竞技场游戏。
您认为使用动态编程为Dota 2这样复杂的东西构建机器人是否可行?
不幸的是,这是不行的。 有太多的州(数百万和数百万),收集DOTA 2的所有细节是一项不可能完成的任务。 这是我们进入强化学习领域或更具体地说是无模型学习的领域。
在本文中,我们将尝试理解蒙特卡罗学习的基础知识。 当没有环境的先验信息并且所有信息基本上由经验收集时使用。 我们将在Python中使用OpenAI Gym工具包来实现此方法。
让我们开球吧!
如果您是这个领域的初学者或需要快速了解一些基本的强化学习术语,我强烈建议您阅读以下文章,以真正最大限度地从这篇文章中学习: