序言
为什么是ppo?
ppo算法作为强化学习领域out of art的算法,如果你要学习强化学习的话 ppo会是你最常用的算法。openai早已把ppo 作为自己的默认算法,所以我希望你能认真学完ppo算法并为自己所用。
强化学习是什么?
简单来说 强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法,比如走迷宫,传统的运筹学算法往往是通过遍历所有的点来完成路径规划,而强化学习则是实现一个anget,让这个
agent自己去随机探索路线,在探索的过程中学习如何走的更远并最终走到终点,这就是强化学习的思想。
需要哪些库?
gym
gym_super_mario_bros
opencv-python
spinup
joblib
起航
准备工作
#导入实验需要的包
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVE

最低0.47元/天 解锁文章
1116





