乘风破浪的马里奥!这个AI带你一口气通29关,你猜连AI都过不去的是哪3关?

本文介绍了uvipen如何使用PPO算法帮助马里奥通过29关,接近完全通关。PPO是一种强大的强化学习算法,已在多个游戏中展现出优秀性能。uvipen将代码开源,分享了训练和测试模型的方法。尽管A3C算法去年尝试未完全成功,但uvipen的科普工作受到了认可。他是一位专注于NLP和CV的计算机科学家,其项目QuickDraw也颇受欢迎。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据文摘出品

作者:牛婉杨

 

马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。

 

人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦?

 

比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。

 

显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法,成功助力马里奥通过32关中的29关,近乎通关!

 

效果大概是这样👇

 

 

强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~

 

用PPO算法顺利通过29关!如果不行,那就换一个学习率

 

这个PPO是何来头?文摘菌也去了解了一下。

 

PPO全称是近端策略优化,听这个名字你可能觉得陌生,但是在人工智能圈,这个算法可是早就用于各种游戏对抗中了。

 

早在2017年,OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO,也正是在它的帮助下,人工智能OpenAI Five首次在电子竞技游戏 DOTA 2 国际邀请赛中打败世界冠军Dendi。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值