多智能体规划与执行:挑战与策略
1. 多智能体规划基础
多智能体规划与控制在不确定和部分可观测的世界中面临着巨大的计算挑战。在给定初始状态分布和DEC - POMDP模型的情况下,需要解决的问题涉及为每个智能体的控制器确定动作选择和节点转移概率,以及一组控制器节点的联合值。具体变量包括每个智能体 $i$ 的 $P(a_i|q_i)$ 和 $P(q’_i|q_i,a_i,o_i)$,以及所有智能体在任何状态下的 $V(\vec{q},s)$。
1.1 非线性规划(NLP)方法
NLP的目标是在初始状态分布下最大化初始节点集的值。其约束条件包括贝尔曼约束和额外的概率约束。贝尔曼约束是非线性的,确保在给定动作和节点转移概率的情况下,值是正确的;概率约束确保动作和节点转移值是合理的概率。通过为相关设备的转移函数添加一个新变量,可以很容易地将相关设备纳入NLP公式中。相关设备可以提高NLP方法的效果,特别是当每个控制器较小时。
1.2 多智能体执行概述
多智能体规划和控制决策的实际执行是一个复杂的过程。如果决策所使用的知识是正确的,世界状态的实际轨迹应该符合智能体的预期。然而,当智能体用于规划和控制决策的世界模型相对于真实世界不正确或不完整时,智能体可能会陷入意外状态,需要决定如何在短期内做出响应,并可能更新其模型以在未来做出更好的规划和控制决策。
2. 多智能体计划监控
在多智能体环境中,检测与预期轨迹的偏差比单智能体环境要困难得多。
2.1 单智能体与多智能体的差异
单智能体可以利用其观察结果形成对当前状态的信念,然后确定在执行过程中是否预期到了这些信
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



