
强化学习
文章平均质量分 88
Yahooo-
这个作者很懒,什么都没留下…
展开
-
强化学习训练营-Task3-PPO算法实战练习-20240507
文章目录R4 PPO(近段策略优化)算法讲解R4.1 由浅入深,简化版ppo(100行代码)R4.2 openai版本ppo算法实践 (训练超级玛丽)R4.2.1 设计DL模型R4.2.2 设计ppo的ac模型(Actor/Critic)R4.2.3 定义ppo 算法R4.2.3.1 定义PPOBuffer 用来存储交互数据,提供给模型训练使用R4.2.3.2 定义ppo算法 及 更新策略R4.2.3.3 PPO算法完整代码(添加log记录、mpi多进程)R4.2.3.3 主函数R4.2.3.4 查看训练过转载 2024-05-07 21:45:23 · 191 阅读 · 0 评论 -
强化学习训练营-Task2-PPO算法环境配置-20240507
一个动作执行后,环境会返回四个变量(obj:新的状态(对照前面环境初始化的状态理解)、reward:指定该动作获得的奖励值(在游戏中的得分)、done:回合是否结束(你控制的小人是不是死了,对应回合结束)、info:额外信息(该游戏较简单,info为空))是{1,2,3,4,5,6,7,8}中的一个数字,表示世界 是{1,2,3,4}中的一个数字,表示一个世界中的阶段 是{0,1,2,3}中的一个数字,指定要使用的rom模式 0:标准ROM 1:降采样ROM 2:像素rom 3:矩形ROM。转载 2024-05-07 21:29:21 · 244 阅读 · 0 评论 -
强化学习训练营-Task1-实战PPO通关超级玛丽-20240507
ppo算法作为强化学习领域out of art的算法,如果你要学习强化学习的话 ppo会是你最常用的算法。openai早已把ppo 作为自己的默认算法,所以我希望你能认真学完ppo算法并为自己所用。转载 2024-05-07 21:19:06 · 194 阅读 · 0 评论