39、多智能体推理:从基础概念到均衡计算

多智能体推理:从基础概念到均衡计算

1. 多智能体系统概述

在以往的决策研究中,我们主要聚焦于单个智能体的决策过程。而现在,我们将把此前讨论的核心概念拓展到涉及多个智能体的问题中。在多智能体系统里,我们可以把其他智能体建模为潜在的盟友或者对手,并随时间进行相应的调整。不过,由于智能体之间交互的复杂性,以及智能体对其他智能体的推理过程(其他智能体也在对该智能体进行推理)等因素,这些问题具有很大的挑战性。

我们会先介绍博弈中的多智能体推理,并且阐述如何从简单的交互中计算均衡。接着,我们会探讨如何为随时间交互的多个智能体设计算法,描述那些倾向于理性适应而非收敛到均衡的学习算法。引入状态不确定性会显著增加问题的复杂性,我们也会着重强调由此带来的挑战。最后,我们会关注那些为了共同目标而协同工作的协作智能体的各种模型和算法。

2. 多智能体推理基础

多智能体推理是博弈论的一个研究主题。此前针对单个智能体的理性决策模型可以自然地拓展到多个智能体的情况。当智能体之间进行交互时,会出现新的挑战,智能体之间既可以相互协助,也可能会追求自身的最大利益。接下来,我们将讨论用于计算决策策略和多智能体均衡的基础博弈论方法。

2.1 简单博弈

简单博弈是多智能体推理的基础模型。每个智能体 (i \in I) 会选择一个动作 (a_i),以最大化自身的累积奖励 (r_i)。联合动作空间 (A = A_1 \times \cdots \times A_k) 包含了每个智能体可用动作 (A_i) 的所有可能组合。多个智能体同时选择的动作可以组合成一个来自联合动作空间的联合动作 (a = (a_1, \cdots, a_k))。联合奖励函数 (R(a

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值