目录
前言
之前通过对AlphaGo Zero的学习,我对深度强化学习有了一定的了解。但是由于没有经过系统的学习,我对其中的知识还有很多不懂的地方。写这一系列文章主要是整理一下网上的资料,梳理这方面的知识,做一下总结。目前网上关于深度强化学习的应用这方向的资料不算多,再加上深度强化学习本身也是一个很难的方向,我在总结的时候会尽量用较简单的语言来说明。
一、强化学习(RL)的基本概念
强化学习是机器学习的一个分支,相较于机器学习经典的有监督学习、无监督学习问题,强化学习最大的特点是在交互中学习(Learning from
Interaction)。智能体在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程,也正因此,RL被视为实现通用AI重要途径。
强化学习的灵感来源于心理学中的行为主义理论,即智能体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。它强调如何基于环境而行动,以取得最大化的预期利益。
以走迷宫的游戏为例,一开始智能体采取随机行走的策略,直到走到终点结束游戏,计算奖励。我们可以把步数的多少作为奖励,步数越少,奖励越大。步数少的那局游戏中采取的策略给予奖励。随着游戏进行的局数变多,智能体就会逐渐知道在当前局面采取什么策略会更靠近终点。
强化学习关键要素:agent(智能体),reward(奖励),action(行为),policy(策略),state(状态),environment(环境),MDP(马尔科夫决策过程)。
agent(智能体)处于某一个state(状态),它按某种policy(策略)选择了某一action(行为),导致它从state1进入state2,这就是agent与environment(环境)的一次交互。每一次和环境交互,环境返回reward(奖励)。
policy(策略)是RL中最核心的问题,它的定义一定要记住,是agent在state时,所要做出action的选择,定义为 π π π。在数学上可以理解为从state到action的映射,是一个mapping。策略分为随机性策略和确定性策略。
- 随机性策略,在某个state下,policy是根据每个动作概率 π ( a ∣ s ) π(a|s) π(a∣s)选择动作。
- 确定性策略,policy则是直接根据状态s选择出动作 a = π ( s ) a=π(s)

本文深入探讨了深度强化学习(DRL)的概念、算法、局限性和实际应用,包括DQN、AlphaGo等成功案例,同时也讨论了DRL面临的挑战,如样本效率、奖励函数设计和泛化问题。
最低0.47元/天 解锁文章
1000

被折叠的 条评论
为什么被折叠?



