多智能体深度强化学习与微型直升机路径跟踪控制
多智能体深度强化学习
在多智能体深度强化学习中,我们使用策略梯度来优化策略网络参数,目标函数定义为特定公式,梯度可表示为:
[
\nabla_{\theta}J(\theta) = E_{s\sim D}\left[\sum_{i}\sum_{j}\nabla_{\theta}\mu_{\theta}^{j}(s)\cdot\nabla_{a_{j}}Q_{\xi}^{i}(s,\mu_{\theta}(s))\right]
]
为确保智能体能够进行探索,在每个时间步,我们会向策略网络的输出添加奥恩斯坦 - 乌伦贝克过程噪声。同样,采用 Q 函数梯度来训练 Q 网络,基于 Q 网络损失函数,可计算出梯度为:
[
\nabla_{\xi}L(\xi) = E_{s\sim D}\left[\sum_{i}\left(r_{i}(s_{t},\mu_{\theta}(s_{t})) + \gamma Q_{\xi’}^{i}(s_{t + 1},\mu_{\theta’}(s_{t + 1})) - Q_{\xi}^{i}(s_{t},\mu_{\theta}(s_{t}))\right)\cdot\nabla_{\xi}Q_{\xi}^{i}(s_{t},\mu_{\theta}(s_{t}))\right]
]
多智能体深度强化学习算法
下面是多智能体深度强化学习算法的具体步骤:
Initial Q network and policy network with ξ and
超级会员免费看
订阅专栏 解锁全文
43

被折叠的 条评论
为什么被折叠?



