44、决策理论多智能体规划详解

决策理论多智能体规划详解

1. 决策理论规划基础

决策理论规划旨在不确定性环境下,通过最大化被称为效用的性能指标期望值来选择行动。与传统规划不同,它明确考虑行动结果和领域状态的不确定性,目标是优化效用而非单纯满足特定目标。例如,太空探索漫游车的决策理论规划,需在漫游车行进速度和电池电量不确定的情况下,最大化科学回报,即收集到的数据量或数据价值。

当应用于多智能体系统时,决策理论规划要同时优化局部规划和协调决策。每个行动的价值取决于其对领域的影响、向其他智能体传递的信息以及从领域或其他智能体获取的信息。

解决不确定性规划的标准框架是马尔可夫决策过程(MDP),它用一组状态表示领域,适用于单个决策者,其行动会导致随机状态转移和奖励,奖励可能取决于行动和结果。部分可观测马尔可夫决策过程(POMDP)是基本MDP模型的扩展,考虑了不完美观测。在POMDP中,决策者在采取每个行动后只能获得世界状态的部分信息,此时智能体需维护一个信念状态(领域状态的概率分布),并在不知世界确切状态的情况下行动。

然而,当两个或多个智能体需要协调行动时,规划问题变得更加复杂。例如,两个太空探索漫游车执行任务时,一辆车收集的数据价值可能取决于另一辆车进行的实验。当每个智能体收到不同观测且对整体情况有不同部分了解时,这类问题被称为分散控制问题,广泛存在于移动机器人协调、分散队列负载均衡、传感器网络目标跟踪和危险天气现象监测等场景。

2. 多智能体规划模型

2.1 分散式部分可观测马尔可夫决策过程(DEC - POMDP)

自20世纪90年代末以来,MDP和POMDP向多智能体场景的自然扩展得到了广泛研究,这里重点介绍DEC -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值