深度Q网络(DQN):原理、算法与实现
1. 动作选择策略
在深度强化学习中,动作选择策略对于智能体的学习和决策至关重要。常见的策略有ε - 贪心策略和玻尔兹曼策略。
1.1 玻尔兹曼策略
贪心或ε - 贪心策略并非深度Q网络(DQN)或SARSA智能体的唯一选择,玻尔兹曼策略是另一种可选方案。该策略以玻尔兹曼概率分布命名,旨在在探索状态 - 动作空间和利用智能体所学知识之间取得平衡。
ε - 贪心策略通过在训练过程中降低采取随机动作的概率ε来平衡探索和利用。这种策略在训练开始时更多地进行探索,随着时间的推移更多地进行利用。然而,其探索策略较为简单,智能体随机探索,不利用任何先前学到的关于环境的知识。
玻尔兹曼策略试图通过使用相对Q值来选择动作,从而改进随机探索。在状态s中,使Q值最大化的动作a最常被选择,但具有相对较高Q值的其他动作也有很高的被选择概率。相反,Q值非常低的动作几乎不会被选择。这使得探索集中在Q值最大化路径之外更有前景的动作上,而不是以相等的概率选择所有动作。
为了生成玻尔兹曼策略,我们通过应用softmax函数(公式4.6)为状态s中的所有动作a的Q值构建一个概率分布。softmax函数由温度参数τ ∈(0, ∞) 参数化,该参数控制所得概率分布的均匀性或集中度。τ值高会使分布更均匀,τ值低会使分布更集中。然后根据这个分布对动作进行采样,如公式4.7所示。
[p_{softmax}(a | s) = \frac{e^{Q_{\pi}(s,a)}}{\sum_{a’} e^{Q_{\pi}(s,a’)}}] (4.6)
[p_{boltzmann}(a | s)
超级会员免费看
订阅专栏 解锁全文
1842

被折叠的 条评论
为什么被折叠?



