多智能体学习中的进化博弈理论
在当今计算机科学领域,研究重点已从独立系统逐渐转向相互交互的分布式组件。随着这些组件展现出越来越多智能实体的特性,交互决策理论,即博弈论,在理解、建模和引导这些智能组件的交互方面变得愈发重要。本文将深入探讨进化博弈理论作为多智能体学习范式的相关内容。
1. 进化博弈理论基础
博弈论主要关注多参与者情境下的交互决策,为研究决策特性和智能体交互的理想结果提供了良好基础,并且在形式和经验上与学习紧密相关。进化博弈理论的核心思想是,不局限于有限数量的参与者(如常见的 2 人 2 行动博弈),而是考虑一个无限规模的群体。通过让群体不断调整策略,并根据参与者的收益进行选择,将“进化”元素引入博弈论。
1.1 矩阵博弈
博弈论将参与者之间的交互建模为游戏,每个参与者有一组可选择的行动。所有参与者需同时选择行动,然后根据所采取行动的组合获得收益。收益可以方便地用双矩阵 (A, B) 表示,每个单元格包含两个数字,分别代表两个参与者的收益。例如,当行参与者选择行动 i,列参与者选择行动 j 时,双矩阵 (A, B) 给出行参与者的收益 Aij 和列参与者的收益 Bij。常见的矩阵博弈包括囚徒困境、性别之战和猜硬币游戏,如下表所示:
| 博弈类型 | 矩阵表示 |
| ---- | ---- |
| 囚徒困境 | $\begin{bmatrix} 3,3 & 0,5 \ 5,0 & 1,1 \end{bmatrix}$ |
| 性别之战 | $\begin{bmatrix} 1, \frac{1}{2} & 0,0 \ 0,0 & \frac{1}{2},1 \end{bma
多智能体学习中的进化博弈理论
超级会员免费看
订阅专栏 解锁全文
739

被折叠的 条评论
为什么被折叠?



