多智能体规划与执行:挑战与策略
1. 多智能体规划问题的非线性规划求解
在给定初始状态分布和 DEC - POMDP 模型的情况下,可通过非线性规划(NLP)来设计智能体的控制器。该问题的变量包括每个智能体控制器节点的动作选择概率、节点转移概率,以及一组控制器节点的联合值。具体而言,对于每个智能体 $i$,有动作选择概率 $P(a_i|q_i)$ 和节点转移概率 $P(q’_i|q_i,a_i,o_i)$,对于所有智能体和任意状态,有联合值 $V(\vec{q},s)$。
NLP 的目标是在初始状态分布下最大化初始节点集的值。其约束条件包括贝尔曼约束和额外的概率约束。贝尔曼约束是非线性的,确保在给定动作和节点转移概率的情况下,值是正确的;概率约束则保证动作和节点转移值是合理的概率。
在 NLP 公式中添加相关性装置很简单,只需为相关性装置的转移函数添加一个新变量。正如预期的那样,相关性装置可以提高 NLP 方法所达到的值,特别是当每个控制器较小时。
2. 多智能体执行
2.1 多智能体计划监控
检测与预期轨迹的偏差在多智能体环境中比单智能体环境困难得多。在单智能体系统中,智能体可以利用其观察结果形成对当前状态的信念,然后判断在执行过程中的这一点是否预期到可能有这样的信念。如果没有,智能体可以采取响应措施,尝试通过注入新动作来修复现有计划,使自己回到预期轨迹,或者将对当前状态的新信念作为构建新计划以实现目标的起点。
在多智能体系统中,虽然也可能发生类似过程,但恢复更加困难。一个智能体通常不能在不与其他智能体协调的情况下注入新动作或用新计划取代旧计划,还需要解决其更改后的计划引入的任何新的智能体间
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



