用ppo算法通关超级玛丽

最新推荐文章于 2025-05-26 15:53:52 发布

原创

最新推荐文章于 2025-05-26 15:53:52 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

序言

ppo算法作为强化学习领域out of art的算法，如果你要学习强化学习的话 ppo会是你最常用的算法。openai早已把ppo 作为自己的默认算法，所以我希望你能认真学完ppo算法并为自己所用。

简单来说强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法，比如走迷宫，传统的运筹学算法往往是通过遍历所有的点来完成路径规划，而强化学习则是实现一个anget,让这个
agent自己去随机探索路线，在探索的过程中学习如何走的更远并最终走到终点，这就是强化学习的思想。

gym
gym_super_mario_bros
opencv-python
spinup
joblib

#导入实验需要的包
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVE

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注

专栏目录

06-07

1116

10-23

1125

2 条评论您还未登录，请先登录后发表或查看评论

dayL_W 2023.02.03
抄天池的课程抄了个寂寞，原创课程在这里，https://tianchi.aliyun.com/course/313
- WhereIsTom回复dayL_W 2023.02.03
  人家天池的任务，要求记录学习过程，才能获得认证，我不知道你自己没有了解过天池学习证书，就指责别人抄袭的意义是啥