机器人控制与无人机编队飞行实验研究
在机器人控制和无人机编队飞行领域,研究人员不断探索新的算法和方法以提高系统的性能和稳定性。本文将详细介绍改进的TD3算法在机械臂控制中的应用,以及基于多进程通信的四旋翼无人机编队飞行实验平台的设计与实验结果。
改进TD3算法在机械臂控制中的应用
算法更新步骤
改进的TD3算法在机械臂控制中涉及一系列的更新步骤,具体如下:
1. 更新过渡优先级:$p_j \leftarrow |\delta_j|$
2. 累积权重变化:$\Delta \leftarrow \Delta + w_j * \delta_j * \nabla_{\theta}Q(s_{j - 1}, a_{j - 1})$
3. 更新权重:$\theta \leftarrow \theta + \eta * \Delta$,并重置$\Delta = 0$
4. 根据条件更新$\phi$和目标网络:
- 当$t \mod d$满足条件时,通过确定性策略梯度更新$\phi$:$\nabla_{\phi}J(\phi) = N^{-1} \sum \nabla_{a}Q_{\theta_1}(s, a)| {a = \pi {\phi}(s)}\nabla_{\phi}\pi_{\phi}(s)$
- 更新目标网络:$\theta’_i \leftarrow \tau\theta_i + (1 - \tau)\theta’_i$;$\phi’ \leftarrow \tau\phi + (1 - \tau)\phi’$
实验环境与机械臂参数
实验环境采用Pytorch1.4和C
超级会员免费看
订阅专栏 解锁全文

2537

被折叠的 条评论
为什么被折叠?



