异构多智能体团队中基于令牌的资源共享
1. 资源令牌定义
资源令牌被定义为一种通信消息的数据结构,包含所需的参数,如时间戳、阈值、路径和起始 ID。任何资源令牌 Δ 的结构可表示为 Δ = < ID, resource, path, threshold, TimeToActive >,其中 resource 是它所代表的物理资源。由于资源的性质,Δ 不能被复制或重新发送。当一个智能体持有 Δ 时,它将接管对 Δ.resource 的控制;若 Δ 被传递,智能体将释放 Δ.resource。为标记资源令牌的唯一性,规定对于任意的 Δi 和 Δj,如果 Δi ≠ Δj,则 Δi.resource ≠ Δj.resource。Δ.path 记录了 Δ 所经过的智能体序列,TimeToActive 记录了资源令牌自上次休眠以来的时间。若资源长时间未被接受,它需要在某个智能体处“休眠”,以避免资源在多智能体团队中传递却无人真正需要的情况。阈值是一个特殊参数,可用于动态调整智能体是否能够保留资源的阈值。
2. 决策理论推理
为了做出合理决策,一种直接的方法是将智能体的决策建模为部分可观测马尔可夫决策过程(POMDP)。智能体 a 用于传递资源令牌 Δ 的局部 POMDP 模型可表示为一个元组 < S, K, A, T, ℜ, O, Ω >:
- S 是团队状态集合,表示“智能体正在做什么”,s 是其中一个特定状态。
- A 是智能体 a 将 Δ 发送给其队友或自己保留的活动空间,可表示为 move(Δ, b)。当智能体接受资源时,即为自己保留令牌。
- T : S × A → S 是转移函数,描述执行令牌传递时的结果状态。
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



