大数据文摘出品
作者:牛婉杨
马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。
人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦?
比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。
显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法,成功助力马里奥通过32关中的29关,近乎通关!
效果大概是这样👇
强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~
用PPO算法顺利通过29关!如果不行,那就换一个学习率
这个PPO是何来头?文摘菌也去了解了一下。
PPO全称是近端策略优化,听这个名字你可能觉得陌生,但是在人工智能圈,这个算法可是早就用于各种游戏对抗中了。
早在2017年,OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO,也正是在它的帮助下,人工智能OpenAI Five首次在电子竞技游戏 DOTA 2 国际邀请赛中打败世界冠军Dendi。