进化动作选择:一种融合EA与DRL优势的新方法
1. 核心思路
该方法聚焦于融合进化算法(EA)和深度强化学习(DRL)的优势,以实现更优的策略学习。其关键创新在于将进化目标从高维的策略网络参数空间转移至低维的动作空间,实验表明,对动作进行进化是比进化策略网络参数更理想的选择。
2. 方法介绍
2.1 进化动作选择(EAS)
EAS以TD3的评判网络$Q_{\mu_{\theta}}$作为适应度评估器,遵循粒子群优化(PSO)的流程,对当前策略网络$\mu_{\theta}(s)$所选的动作$a$进行进化。其输出是具有比动作$a$更高$Q$值的进化动作$a_e$。
以下是EAS的伪代码:
Algorithm 1. Evolutionary Action Selection
Input: State s, action a, critic network Qµθ
PSO parameters: Inertia weight ω, acceleration coefficients c1, c2, random coefficients r1, r2
Output: Evolutionary action ae
1: Extend the action a with Gaussian noise ϵ to form the initial action population
A = (a1...an...aN), an = a + ϵn, ϵ ∈N(0, σ), N is the number of actions
2: Initialize the
超级会员免费看
订阅专栏 解锁全文
1445

被折叠的 条评论
为什么被折叠?



