本博文系列将记录本人理解gym-gazebo的过程。最终目标是添加自己建的环境,并使用gym来在此环境中进行强化学习的研究。
这是利用dqn训练好的,利用laser进行自动避障的机器人。没有使用gym-gazebo中给出的算法(算法有bug,索性就自己编了),作为阶段性的成果,mark以下。
- state(observation):50维的laser数据
- reward:自己定义了一个函数,偏好大速度向前移动
有几点体会
- 传统的q-learning在这类问题基本上不会有好的结果,原因很简单。
- 在这个场景dqn性能最好的时刻不是最后,而是在中间的时刻,这点跟传统的supervised learning有所不同,需要思考。
- 测试时候即使reset了,每次的结果也是不一样的(大方向一致),原因需要想一想,我有个大致想法,正在验证。
接下来我们将测试新的算法与传感器

本文分享了使用DQN算法训练机器人实现激光雷达避障的实践经验。通过自定义奖励函数鼓励机器人快速前进,实现了良好的避障效果。文章还讨论了传统Q-learning与DQN的区别及测试中的不确定性问题。
4371

被折叠的 条评论
为什么被折叠?



