32、强化学习:原理、算法与应用

强化学习:原理、算法与应用

1. 强化学习概述

强化学习(Reinforcement Learning,RL)是机器学习的一个强大分支,它使智能体能够通过与环境的交互来学习最优或接近最优的行为。其核心思想是智能体在环境中进行行动,根据行动结果获得奖励或惩罚反馈,并以此学习如何做出决策,目标是最大化长期累积奖励。

常见的强化学习算法可分为马尔可夫决策过程(Markov Decision Process,MDP)问题和多臂老虎机(Multi-Armed Bandit,MAB)问题,具体分类如下表所示:
| 类别 | 子类别 | 具体算法 |
| — | — | — |
| 马尔可夫决策过程(MDP) | 基于模型的强化学习(MBRL) | AlphaZero、世界模型、想象增强智能体(I2A)等 |
| | 无模型的强化学习(MFRL) | Q学习、优势演员 - 评论家(A2C)、异步优势演员 - 评论家(A3C)、近端策略优化(PPO)等 |
| 多臂老虎机(MAB) | 上下文多臂老虎机(CMAB) | - |
| | 非上下文多臂老虎机 | - |

在MDP问题中,智能体的行动会影响环境,需要考虑多时间步的行动后果;而MAB问题则是智能体面临一系列选择,目标是最大化累积奖励,常用于无需明确状态表示或长期规划的场景。上下文多臂老虎机问题中,智能体可利用上下文信息做出更明智的决策。

2. 马尔可夫决策过程(MDP)

学习的目的是构建外部世界的内部模型,环境可以用确定性或非确定性(随机)模型进行抽象。

以通勤为例,确定性路径规划算法(如A*算法)会在假设行动及其

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值