基于强化学习的超级马里奥代码实现

最新推荐文章于 2025-11-15 18:05:32 发布

原创

最新推荐文章于 2025-11-15 18:05:32 发布 · 8.7k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #后端

本文介绍如何使用强化学习让AI学会玩经典游戏《超级马里奥》。通过结合nes_py、gym_super_mario_bros及stable_baselines3等库，实现了从环境搭建到模型训练再到游戏测试的全过程。最终，AI能够自主控制马里奥完成游戏关卡。

环境

gym_super_mario_bros
nes_py
matplotlib
pytorch
stable_baselines3
numpy

简单介绍

nes_py 库是任天堂开发的专门用于控制游戏的工具，类似于游戏手柄。
gym_super_mario_bros里面有各个关卡的环境模型，这里选用SuperMarioBros-v0第一关。
stable_baselines3是对强化学习新手及其友好的库，基于pytorch进行开发，可以方便的使用各种常用的强化学习算法的代码。

代码


from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
import time
from matplotlib import pyplot as plt
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack
from stable_baselines3 import PPO

from gym.wrappers import GrayScaleObservation

from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common.results_plotter import load_results, ts2xy
import numpy as np
import os
from stable_baselines3.common.callbacks import BaseCallback

env = gym_super_mario_bros.make('SuperMarioBros-v0')
env = JoypadSpace(env, SIMPLE_MOVEMENT)


log_dir = './monitor_log/'
os.makedirs(log_dir, exist_ok=True)

env = Monitor(env, log_dir