深度强化学习（DRL）一：入门篇

原创

已于 2022-03-08 06:48:46 修改 · 2.1w 阅读

211 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #算法 #机器学习

于 2020-02-27 13:47:46 首次发布

本文深入探讨了深度强化学习（DRL）的概念、算法、局限性和实际应用，包括DQN、AlphaGo等成功案例，同时也讨论了DRL面临的挑战，如样本效率、奖励函数设计和泛化问题。

前言

之前通过对AlphaGo Zero的学习，我对深度强化学习有了一定的了解。但是由于没有经过系统的学习，我对其中的知识还有很多不懂的地方。写这一系列文章主要是整理一下网上的资料，梳理这方面的知识，做一下总结。目前网上关于深度强化学习的应用这方向的资料不算多，再加上深度强化学习本身也是一个很难的方向，我在总结的时候会尽量用较简单的语言来说明。

一、强化学习（RL）的基本概念

强化学习是机器学习的一个分支，相较于机器学习经典的有监督学习、无监督学习问题，强化学习最大的特点是在交互中学习（Learning from
Interaction）。智能体在与环境的交互中根据获得的奖励或惩罚不断的学习知识，更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程，也正因此，RL被视为实现通用AI重要途径。

强化学习的灵感来源于心理学中的行为主义理论，即智能体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。它强调如何基于环境而行动，以取得最大化的预期利益。

以走迷宫的游戏为例，一开始智能体采取随机行走的策略，直到走到终点结束游戏，计算奖励。我们可以把步数的多少作为奖励，步数越少，奖励越大。步数少的那局游戏中采取的策略给予奖励。随着游戏进行的局数变多，智能体就会逐渐知道在当前局面采取什么策略会更靠近终点。

强化学习关键要素：agent（智能体），reward（奖励），action（行为），policy（策略），state（状态），environment（环境），MDP（马尔科夫决策过程）。

agent（智能体）处于某一个state（状态），它按某种policy（策略）选择了某一action（行为），导致它从state1进入state2，这就是agent与environment（环境）的一次交互。每一次和环境交互，环境返回reward（奖励）。

policy（策略）是RL中最核心的问题，它的定义一定要记住，是agent在state时，所要做出action的选择，定义为 $π$ 。在数学上可以理解为从state到action的映射，是一个mapping。策略分为随机性策略和确定性策略。