多智能体系统中的复制动态与强化学习
1. 复制动态概述
复制动态(Replicator Dynamics,RD)可以从时间、策略空间和种群数量三个维度进行讨论。下面将分别推导离散策略空间和连续策略空间中的复制动态。
2. 离散策略空间中的复制动态
在离散策略空间中,参与策略游戏的智能体持有一个关于可能行动的比例向量,表示无限“种群”(智能体)中采用给定行动的“个体”或“复制者”的比例。每个时间步,每个智能体的行动比例会根据收益表中的奖励以及其他智能体选择行动的当前概率而改变。
一个进化过程的抽象通常结合了两个基本元素:选择和突变。选择使某些种群行动比其他行动更受青睐,而突变则为种群提供了多样性。最基本形式的复制动态仅强调选择的作用,即如何选择种群中最适合的行动。
2.1 离散时间复制动态
假设存在一个单一的行动(或复制者)种群,并考虑一个离散时间过程 $t = 1, 2, …$。设 $A = (a_{ij})_{i,j = 1}^{n}$ 为奖励矩阵。
设种群中的个体代表智能体可以执行的不同行动。种群的状态可以用向量 $x(t) = (x_1(t), …, x_n(t))$ 描述,其中 $x_i(t)$ 表示种群中个体 $i$ 的比例。
在每个时间步 $t$,种群的状态 $x(t)$ 根据不同个体的适应度值而改变。更确切地说,代表行动 $i$ 的单个个体的预期后代数量等于该个体的预期收益 $\sum_{j = 1}^{n} a_{ij} x_j(t)$ 与种群中所有个体的平均收益 $\sum_{k = 1}^{n} x_k(t) (\sum_{j = 1}^{n} a_{k
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



