- 博客(3)
- 收藏
- 关注
原创 manipulator control DDPG与HER回放项目学习
他先从observation里面拆出三块,state = np.concatenate然后马上拼成DDPG的state,再使用训练好的DDPG选择策略,然后把action传给env,得到new_observation, reward, done, truncated, _ ,然后保存图像,处理episode结束。还是老规矩,我一般会先看training和main的东西,感觉应该会比较简单,这个项目的话是用DDPG和TD3这两种算法,加上HER这种经验回放的方式进行训练的,值的一提的就是这个HER。
2025-11-28 12:49:08
588
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅