基于演员-评论家方法的强化学习:构建自我提升的游戏AI
1. 引言
在学习玩游戏时,让更强大的玩家回顾你的游戏过程是提升技巧的有效方法。他们的反馈能指出游戏中关键的胜负节点,帮助你聚焦重要部分。在强化学习中,演员 - 评论家学习法借鉴了这一原理,它结合了策略学习和价值学习,能让我们构建自我提升的游戏AI。本文将详细介绍如何利用优势(advantage)概念提高强化学习效率,以及如何设计和训练用于演员 - 评论家学习的神经网络。
2. 优势:确定重要决策
2.1 优势的概念
在强化学习中,信用分配问题是一个挑战。例如,学习代理玩了一场200步的游戏并获胜,我们需要区分哪些是好的决策,哪些是坏的决策。优势是解决这个问题的关键概念,它量化了特定决策对最终结果的贡献。
优势的计算基于状态值估计 $V(s)$ 和动作价值函数 $Q(s,a)$。$V(s)$ 表示代理处于状态 $s$ 时的预期回报,而 $Q(s,a)$ 表示选择动作 $a$ 后的预期回报。优势的定义通常为:
$A = Q(s, a) – V(s)$
但由于难以计算 $Q(s,a)$,我们可以用游戏结束时的奖励 $R$ 作为真实 $Q$ 的无偏估计,因此优势可以估计为:
$A = R – V(s)$
以下是几个优势计算的例子:
- 游戏开始时,$V(s) = 0$,若代理获胜,奖励 $R = 1$,则第一步的优势为 $1 - 0 = 1$。
- 游戏接近尾声,$V(s) = 0.95$,代理获胜,此时优势为 $1 - 0.95 = 0.05$。
- 代理处于获胜位置,$V(s) = 0.95$,但最终输掉游
超级会员免费看
订阅专栏 解锁全文

1028

被折叠的 条评论
为什么被折叠?



