41、序列问题中的马尔可夫博弈及相关策略分析

最新推荐文章于 2025-10-19 03:38:55 发布

最新推荐文章于 2025-10-19 03:38:55 发布

阅读量61

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：马尔可夫博弈纳什均衡最佳响应

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386444

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

序列问题中的马尔可夫博弈及相关策略分析

1. 马尔可夫博弈基础

马尔可夫博弈（Markov Game，MG）可以看作是涉及多个具有各自奖励函数的智能体的马尔可夫决策过程。在这种博弈中，状态转移依赖于联合行动，所有智能体都试图最大化自己的奖励。

1.1 马尔可夫博弈的数据结构

马尔可夫博弈的基本数据结构如下：

struct MG
    γ
    # discount factor
    ℐ
    # agents
    𝒮
    # state space
    𝒜
    # joint action space
    T
    # transition function
    R
    # joint reward function
end

这个数据结构包含了折扣因子、智能体集合、状态空间、联合行动空间、转移函数和联合奖励函数。

1.2 交通路由示例

以交通路由问题为例，每辆车的司机是一个智能体，道路上所有车辆的位置是状态，选择下一条道路的决策是行动。状态转移根据联合行动推动所有车辆前进，负奖励与在道路上行驶的时间成正比。这个问题不能用单智能体模型（如MDP）来建模，因为我们不知道其他智能体的行为，只知道它们的奖励。我们可以尝试寻找均衡或通过交互学习策略。