多智能体系统强化学习全解析
1. 强化学习基础
强化学习(RL)基于这样一个简单的观察:奖励期望的行为并抑制不期望的行为会导致行为的改变。在时间步 t,智能体处于状态 st 并采取动作 at,这会使智能体获得奖励 rt 并转移到状态 st+1。强化学习的目标是发现一个策略,即从状态到动作的映射,以最大化接收到的强化信号。强化信号是一个标量值,通常负值表示惩罚,正值表示奖励。
与监督学习技术不同,强化学习方法不假设存在一个能在特定情况下提供正确动作的“教师”。学习者通过尝试不同动作并接收关于动作后果的信号来找出最佳动作,因此被认为是一种“半监督”学习技术。在许多问题中,一个动作的后果在执行该动作后不会立即显现,而是在采取一系列其他动作之后才会出现。也就是说,所选动作不仅会影响学习者立即获得的奖励或惩罚,还会影响其未来可能获得的强化。
2. 马尔可夫决策过程(MDP)
大多数单智能体 RL 研究基于马尔可夫决策过程(MDP)框架。MDP 是用于完全可观察世界的顺序决策问题,由元组 ⟨S, A, T, R⟩ 定义,其中 S 是有限的状态集,A 是智能体可用的有限动作集。MDP 遵循马尔可夫属性,即未来的动态、转移和奖励完全取决于当前状态。在状态 s 中执行动作 a 后到达状态 s′ 的概率由转移矩阵函数 T : S × A × S → [0, 1] 表示,记为 T(s, a, s′),且满足 0 ≤ T(s, a, s′) ≤ 1,以及 ∑s′∈S T(s, a, s′) = 1。奖励函数 R : S → R 返回在状态 s 采取动作 a 后的奖励 R(s, a)。
转移函数 T 和奖励函数 R 共同构成了环境的模型。MDP 中的学习任务是找到一个策略
超级会员免费看
订阅专栏 解锁全文

781

被折叠的 条评论
为什么被折叠?



