深度强化学习中的策略优化与Q学习方法
1. 离策略学习与近端策略优化
在强化学习中,离策略学习是一种重要的方法。在这种学习方式中,我们有两种策略:行为策略(behavior policy)和目标策略(target policy)。行为策略更具探索性,用于采样动作;而目标策略则是我们要优化的策略。
1.1 离策略学习的优化目标
在离策略设置中,由于我们从不同的分布 $q(a|s)$(行为策略)采样动作,而不是从 $\pi_{\theta}(a|s)$(目标策略)采样,因此使用以下约束优化目标:
[
\theta^* = \arg\max_{\theta}\sum_{s}\rho_{\theta_{old}}(s)\sum_{a}\frac{\pi_{\theta}(a|s)}{q(a|s)}A_{\theta_{old}}(s,a)
]
[
s.t. \ Avg. KL(\theta_{old}, \theta) \leq \delta
]
其中,$q(a|s)$ 的加入考虑了我们从单独的行为策略采样的事实。通过代数运算,我们可以将原始目标转换为等价的目标,但期望是相对于行为策略的:
[
\sum_{a}\pi_{\theta}(a|s)A_{\theta_{old}}(s,a) = \sum_{a}\frac{q(a|s)}{q(a|s)}\pi_{\theta}(a|s)A_{\theta_{old}}(s,a) = \sum_{a}q(a|s)\frac{\pi_{\theta}(a|s)}{q(a|s)}A_{\theta_{old}}(s,a) = E_{q(a|s)}\left[\frac
超级会员免费看
订阅专栏 解锁全文

1236

被折叠的 条评论
为什么被折叠?



