多智能体系统强化学习全解析
1. 强化学习基础
强化学习基于一个简单的观察:奖励期望的行为,抑制不期望的行为会导致行为的改变。在时间步 t,智能体处于状态 st 并采取行动 at,之后会收到奖励 rt 并转移到状态 st+1。强化学习的目标是找到一个策略,即从状态到行动的映射,以最大化接收到的强化信号。强化信号是一个标量值,通常负数表示惩罚,正数表示奖励。与监督学习不同,强化学习没有教师提供特定情况下的正确行动,而是通过尝试行动并接收行动后果的信号来找出最佳行动,因此被认为是一种“半监督”学习技术。而且,一个行动的后果可能不会在执行后立即显现,而是在采取一系列其他行动之后才会体现,这意味着所选行动不仅会影响即时奖励或惩罚,还会影响未来可能收到的强化。
2. 马尔可夫决策过程(MDP)
大多数单智能体强化学习研究基于马尔可夫决策过程(MDP)框架。MDP 是完全可观察世界中的顺序决策问题,由元组 ⟨S, A, T, R⟩ 定义,其中 S 是有限的状态集,A 是智能体可用的有限行动集。MDP 遵循马尔可夫属性,即未来的动态、转移和奖励完全取决于当前状态。行动 a 在状态 s 下导致状态 s′ 的概率由转移矩阵函数 T : S × A × S → [0, 1] 表示,记为 T(s, a, s′),且对于所有行动 a 和状态 s、s′,有 0 ≤ T(s, a, s′) ≤ 1,且 ∑s′∈S T(s, a, s′) = 1。奖励函数 R : S → R 返回在状态 s 采取行动 a 后的奖励 R(s, a)。
转移函数 T 和奖励函数 R 通常被称为环境模型。MDP 中的学习任务是找到一个策略 π : S → A,以选择具有最大预期(折扣)未来奖励的行动。策略的
超级会员免费看
订阅专栏 解锁全文
1109

被折叠的 条评论
为什么被折叠?



