离散与连续策略空间中的复制动态
在许多实际场景中,策略选择并非是离散有限的,而是连续的。例如在足球比赛中,球员踢球的方向、无球时的跑位等都是连续的。但通常为了简化问题,会采用少量离散动作来代替连续参数。经典的复制动态(RD)描述的是离散策略混合的演化,而对于连续参数,则需要描述该参数上的概率分布,此时RD需用策略空间和时间上的时空偏微分方程(PDE)来替代,其解能给出策略分布函数随时间的演化,最终收敛到对应PDE的稳态解。
1. 博弈论基础概念
为了更好地理解演化动态模型,我们先介绍博弈论和演化博弈论的基础概念。
1.1 离散策略集的战略博弈
- 标准型博弈 :n 人标准型博弈是一种涉及 n 个玩家之间得失的冲突情况。玩家们反复互动,同时选择一个行动(或策略)。为简化,我们将玩家的纯策略集限制为 2 个策略。策略定义为所有可能行动上的概率分布。在 2 个纯策略的情况下,(s_1 = (1, 0)) 和 (s_2 = (0, 1)),混合策略 (s_m = (x_1, x_2)),其中 (x_1, x_2 \neq 0) 且 (x_1 + x_2 = 1)。
对于 2 人 2 行动的博弈 (G = (S_1, S_2, P_1, P_2)),由支付函数 (P_1, P_2) 及其策略集 (S_1)(第一个玩家)和 (S_2)(第二个玩家)定义。支付函数 (P_1 : S_1×S_2 →ℜ) 和 (P_2 : S_1×S_2 →ℜ) 由支付矩阵 (A)(第一个玩家)和 (B)(第二个玩家)定义。
超级会员免费看
订阅专栏 解锁全文
4065

被折叠的 条评论
为什么被折叠?



