强化学习:原理、应用与算法解析
1. 强化学习概述
强化学习(Reinforcement Learning,RL)从一个完整的、能与环境交互并实现目标的智能体开始。与其他学习方式不同,从一开始就假定智能体需在对自身所处环境存在显著不确定性的情况下运行。
当在强化学习中运用规划时,必须考虑生成规划与选择实时行动之间的联系,以及理解环境模型是如何创建和推进的。而在强化学习中使用监督学习,是为了明确哪些技能有价值,哪些没有。例如,某些强化学习方法利用标准化近似进行学习的能力,解决了运筹学和理念管理中经典的“维度灾难”问题。
强化学习与心理学和神经科学有着紧密的交互,双方都从中受益匪浅。它是最接近人类和其他动物学习方式的机器学习形式,许多强化学习的主要算法都受到了生物学习结构的启发。强化学习还通过动物学习的心理学模型以及大脑奖励系统的重要组成部分得到反馈,这与一些科学统计结果相匹配。
其方法可分为“弱技术”和“强技术”,前者基于发现或学习等一般原则,后者则基于特定信息。在当今时代,人们在寻找一般原则上投入的精力很少,却发现根本不存在通用的原则。现代人工智能研究涉及掌握、探索和决策等常见理念。虽然不确定这种趋势会发展到何种程度,但强化学习研究是朝着更简单、更具针对性的人工智能标准发展的一部分。
2. 强化学习示例
理解强化学习的一个好方法是考虑一些引导其发展的示例和可行应用:
- 国际象棋大师 :大师在棋局中能迅速做出自发选择,这既体现了特定位置和行动的重要性,也涉及选举规划以及对对手可能反应和反击的预判。
- 小羚羊 :出生后不久就能以每小时
超级会员免费看
订阅专栏 解锁全文
759

被折叠的 条评论
为什么被折叠?



