45、多智能体规划与执行:挑战与策略

多智能体规划与执行:挑战与策略

1. 多智能体规划基础

多智能体规划与控制在不确定和部分可观测的世界中面临着巨大的计算挑战。在给定初始状态分布和DEC - POMDP模型的情况下,需要解决的问题涉及为每个智能体的控制器确定动作选择和节点转移概率,以及一组控制器节点的联合值。具体变量包括每个智能体 $i$ 的 $P(a_i|q_i)$ 和 $P(q’_i|q_i,a_i,o_i)$,以及所有智能体在任何状态下的 $V(\vec{q},s)$。

1.1 非线性规划(NLP)方法

NLP的目标是在初始状态分布下最大化初始节点集的值。其约束条件包括贝尔曼约束和额外的概率约束。贝尔曼约束是非线性的,确保在给定动作和节点转移概率的情况下,值是正确的;概率约束确保动作和节点转移值是合理的概率。通过为相关设备的转移函数添加一个新变量,可以很容易地将相关设备纳入NLP公式中。相关设备可以提高NLP方法的效果,特别是当每个控制器较小时。

1.2 多智能体执行概述

多智能体规划和控制决策的实际执行是一个复杂的过程。如果决策所使用的知识是正确的,世界状态的实际轨迹应该符合智能体的预期。然而,当智能体用于规划和控制决策的世界模型相对于真实世界不正确或不完整时,智能体可能会陷入意外状态,需要决定如何在短期内做出响应,并可能更新其模型以在未来做出更好的规划和控制决策。

2. 多智能体计划监控

在多智能体环境中,检测与预期轨迹的偏差比单智能体环境要困难得多。

2.1 单智能体与多智能体的差异

单智能体可以利用其观察结果形成对当前状态的信念,然后确定在执行过程中是否预期到了这些信

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值