深度强化学习(DRL)一:入门篇

本文深入探讨了深度强化学习(DRL)的概念、算法、局限性和实际应用,包括DQN、AlphaGo等成功案例,同时也讨论了DRL面临的挑战,如样本效率、奖励函数设计和泛化问题。

前言

之前通过对AlphaGo Zero的学习,我对深度强化学习有了一定的了解。但是由于没有经过系统的学习,我对其中的知识还有很多不懂的地方。写这一系列文章主要是整理一下网上的资料,梳理这方面的知识,做一下总结。目前网上关于深度强化学习的应用这方向的资料不算多,再加上深度强化学习本身也是一个很难的方向,我在总结的时候会尽量用较简单的语言来说明。

一、强化学习(RL)的基本概念

强化学习是机器学习的一个分支,相较于机器学习经典的有监督学习、无监督学习问题,强化学习最大的特点是在交互中学习(Learning from
Interaction)。智能体在与环境的交互中根据获得的奖励或惩罚不断的学习知识,更加适应环境。RL学习的范式非常类似于我们人类学习知识的过程,也正因此,RL被视为实现通用AI重要途径。

强化学习的灵感来源于心理学中的行为主义理论,即智能体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。它强调如何基于环境而行动,以取得最大化的预期利益。

以走迷宫的游戏为例,一开始智能体采取随机行走的策略,直到走到终点结束游戏,计算奖励。我们可以把步数的多少作为奖励,步数越少,奖励越大。步数少的那局游戏中采取的策略给予奖励。随着游戏进行的局数变多,智能体就会逐渐知道在当前局面采取什么策略会更靠近终点。

强化学习关键要素:agent(智能体),reward(奖励),action(行为),policy(策略),state(状态),environment(环境),MDP(马尔科夫决策过程)。

agent(智能体)处于某一个state(状态),它按某种policy(策略)选择了某一action(行为),导致它从state1进入state2,这就是agent与environment(环境)的一次交互。每一次和环境交互,环境返回reward(奖励)。

policy(策略)是RL中最核心的问题,它的定义一定要记住,是agent在state时,所要做出action的选择,定义为 π π π。在数学上可以理解为从state到action的映射,是一个mapping。策略分为随机性策略和确定性策略。

  • 随机性策略,在某个state下,policy是根据每个动作概率 π ( a ∣ s ) π(a|s) π(as)选择动作。
  • 确定性策略,policy则是直接根据状态s选择出动作 a = π ( s ) a=π(s)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值