【RL】强化学习的基本思想

本文探讨了强化学习与有监督及无监督学习的区别,强调了在未知环境中产生数据和求解最优策略的重要性。介绍了如何通过与环境交互产生有价值的数据,以及求解最佳策略的两种主要方法:基于价值和基于策略的方法。

在机器学习中,有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。强化学习与上述这二者最显著的不同在于,首先它不是基于已有的数据进行学习,而是针对一个环境进行学习;另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。上述的特点导致了强化学习的思维模式与我们所熟悉的监督学习或非监督学习有非常大的区别。

概括地说,强化学习算法主要涉及到两个组成部分:其一是通过与环境交互产生大量的数据,其二是利用这些数据去求解最佳策略。在给定数据集的问题中,我们往往只用考虑算法的计算量。而在强化学习中,我们不但要考虑算法的计算量,也要考虑我们产生数据所消耗的成本,这就是数据效率(data efficiency)。如何能高效地与环境交互产生数据(提升数据效率),并高效地求解最优策略(提升训练效率),这也正是强化学习的困难所在。

下面,我们就分别讲一讲这两个部分所用到的主要思想,以及其对于强化学习算法的意义所在。

一 从环境中产生数据

在有监督学习中,我们假定自然中有一个我们不了解的分布P(Y∣X=x)P(Y \mid X=x)P(YX=x)而我们有许多服从于PPP分布的数据。我们的目标是通过数据学习出数据背后的PPP。而强化学习问题中,我们假定有一个能够自由与其交互产生数据的环境。我们可以不断从环境中获取数据,以训练智能体在环境中的行为方式,以使其获得更多的奖励。有监督学习中我们拥有的是数据,而强化学习中我们拥有的是环境。

有的读者可能有疑问:“拥有数据”与“拥有环境”有什么区别?即使强化学习中我们“拥有环境”,但我们仍然要通过与环境交互产生数据,最后通过数据来学习。如此说来,“拥有环境”和“拥有数据”岂不是一样的吗?

这里我们要特别强调的是, “拥有数据”意味着我们拥有环境中随机产生的数据。 “拥有环境”意味着我们可以自主地选择与环境交互的方式,从环境中产生我们需要的数据。简单地说,有监督学习中的训练数据是环境中随机产生后交到我们的手上,并不包含我们人为设计的成分;而强化学习的训练数据则包含了我们主观设计的成分,它无疑比随机产生的训练数据包含更多的价值。正因如此,我们可以专门选择环境中我们感兴趣的或对于目标有帮助的部分进行探索,即根据需要来获得数据。这也正是强化学习中的探索利用平衡发挥作用的地方。

打个比方,我们目标是训练一个擅长下象棋的智能体,使得它能够尽可能地在标准的象棋对局中战胜对手。下图中的s1s^{1}s1是一个正常对弈中很可能会出现的局势。熟悉象棋的同学不难看出,到了这一步,红方已经处于绝对优势。如果走法恰当,只需要两步就可以取胜了。即使走法不那么恰当,也几乎不可能被对手逆转;与之相比,s2s^{2}s2是一个非常罕见的局势,只有在专门设计的残局挑战中才会出现。在s2s^{2}s2中,红方处于极其危险的境地,只有一种步步紧逼的走法才有可能反败为胜。只要有一步的疏忽,就立即会被对手将死。如果单从技术难度的角度来说,局势s2s^{2}s

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值