Pommerman游戏智能体策略解析
1. 计算“最小到达时间”
“最小到达时间” $\tau_i(u, p, w)$ 表示在状态 $u$ 下,智能体 $i$ 从初始位置出发,在 $w$ 步内到达位置 $p = (x, y)$ 的最早到达时间。例如,如果 $\tau_i(u, (3, 4), 10) = 5$,意味着智能体 $i$ 可以从状态 $u$ 的位置以 5 步的最优移动到达位置 $(3, 4)$;如果 $\tau_i(u, (3, 4), 3) = \infty$,则表示智能体 $i$ 无法在 3 步内到达位置 $(3, 4)$。
以下是计算“最小到达时间”的算法:
Algorithm 1 Calculate “Minimum Arriving Time”
τ ⇐∞
for i ∈{1, 2, 3, 4} do
τ[i][0][s′.pos] ⇐0
for t ∈{1, · · · , Nw} do
for p1 ∈{p|τ[i][t −1][p] ̸= ∞} do
for p2 ∈{ one-hop movable positions from p1} do
τ[i][t][p2] ⇐min(τ[i][t][p2], t, τ[i][t −1][p2])
end for
end for
end for
end for
同时,存在函数 $g$,它忽略智能体 - 智能体冲突和智能体 - 炸弹冲突,且不需要智能体的动作 $a$ 作为输入,
超级会员免费看
订阅专栏 解锁全文
1280

被折叠的 条评论
为什么被折叠?



