强化学习:原理、算法与应用
1. 强化学习概述
强化学习(Reinforcement Learning,RL)是机器学习的一个强大分支,它使智能体能够通过与环境的交互来学习最优或接近最优的行为。其核心思想是智能体在环境中进行行动,根据行动结果获得奖励或惩罚反馈,并以此学习如何做出决策,目标是最大化长期累积奖励。
常见的强化学习算法可分为马尔可夫决策过程(Markov Decision Process,MDP)问题和多臂老虎机(Multi-Armed Bandit,MAB)问题,具体分类如下表所示:
| 类别 | 子类别 | 具体算法 |
| — | — | — |
| 马尔可夫决策过程(MDP) | 基于模型的强化学习(MBRL) | AlphaZero、世界模型、想象增强智能体(I2A)等 |
| | 无模型的强化学习(MFRL) | Q学习、优势演员 - 评论家(A2C)、异步优势演员 - 评论家(A3C)、近端策略优化(PPO)等 |
| 多臂老虎机(MAB) | 上下文多臂老虎机(CMAB) | - |
| | 非上下文多臂老虎机 | - |
在MDP问题中,智能体的行动会影响环境,需要考虑多时间步的行动后果;而MAB问题则是智能体面临一系列选择,目标是最大化累积奖励,常用于无需明确状态表示或长期规划的场景。上下文多臂老虎机问题中,智能体可利用上下文信息做出更明智的决策。
2. 马尔可夫决策过程(MDP)
学习的目的是构建外部世界的内部模型,环境可以用确定性或非确定性(随机)模型进行抽象。
以通勤为例,确定性路径规划算法(如A*算法)会在假设行动及其
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



