强化学习1——基本概念及研究现状

本文介绍了强化学习的基础知识,包括基本概念、目的、与监督学习和非监督学习的区别,以及马尔可夫决策过程(MDP)模型。强化学习通过与环境的交互学习最优策略,它的目标是最大化长期奖励。文中还讨论了强化学习与监督学习和非监督学习的差异,并介绍了强化学习的基本原理和模型,以及强化学习在多智能体系统中的研究方向。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、强化学习基础知识

1.1 基本概念

强化学习(Reinforcement Leraning,又称再励学习,评价学习)是一种重要的机器学习算法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式,因此在智能控制,机器学习等领域得到了广泛研究。 

强化学习的任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系。

1.2 强化学习的目的

强化学习算法的目的就是寻找一个策略\pi ,使得每个状态s的值V^{n}(s)(或Q^{n}(s))都同时达到最大。

所有的强化学习算法的机制都是基于值函数和策略之间的相互作用,如图1 所示。利用值函数可以改善策略,而利用对策略的评价又可以进行值函数的学习,改进值函数。强化学习就是在这种交互过程中,逐步得到最优值函数和最优策略。

                                                                

                                                                    图 2 值函数与策略间的相互作用

1.3 与监督学习和非监督学习的区别

监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。而这时,强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。就好比你有一只还没有训练好的小狗,每当它把屋子弄乱后,就减少美味食物的数量(惩罚),每次表现不错时,就加倍美味食物的数量(奖励),那么小狗最终会学到一个知识,就是把客厅弄乱是不好的行为。

两种学习方式都会学习出输入到输出的一个映射,监督式学习出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出,强化学习出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。另外强化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路漫求索_CUMT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值