序列问题中的马尔可夫博弈及相关策略分析
1. 马尔可夫博弈基础
马尔可夫博弈(Markov Game,MG)可以看作是涉及多个具有各自奖励函数的智能体的马尔可夫决策过程。在这种博弈中,状态转移依赖于联合行动,所有智能体都试图最大化自己的奖励。
1.1 马尔可夫博弈的数据结构
马尔可夫博弈的基本数据结构如下:
struct MG
γ
# discount factor
ℐ
# agents
𝒮
# state space
𝒜
# joint action space
T
# transition function
R
# joint reward function
end
这个数据结构包含了折扣因子、智能体集合、状态空间、联合行动空间、转移函数和联合奖励函数。
1.2 交通路由示例
以交通路由问题为例,每辆车的司机是一个智能体,道路上所有车辆的位置是状态,选择下一条道路的决策是行动。状态转移根据联合行动推动所有车辆前进,负奖励与在道路上行驶的时间成正比。这个问题不能用单智能体模型(如MDP)来建模,因为我们不知道其他智能体的行为,只知道它们的奖励。我们可以尝试寻找均衡或通过交互学习策略。
1.3 联合策略与效用计算
在马尔可夫博弈中,联合策略π指定了在给定当前状态下联合行动的概率分布。我们关注依赖当前状态而非过去历史的策略,以及不依赖时间的平稳策略。智能体i在状态s选择行动a的
超级会员免费看
订阅专栏 解锁全文
1320

被折叠的 条评论
为什么被折叠?



