
大数据文摘出品
作者:牛婉杨
马里奥的系列游戏自打诞生以来就风靡全球,同时也陪伴了无数人的童年。
人工智能出现后,不少技术咖都开始尝试,能不能利用AI完成马里奥的一次通关梦?
比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发,用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。
显然,他对之前的方法不够满意,于是经过一年多的钻研,他带着新方法来了!这次,他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization,简称PPO) 算法,成功助力马里奥通过32关中的29关,近乎通关!
效果大概是这样👇

强迫症表示这也太舒适了吧,快来和文摘菌一起看看uvipen是如何做到的吧~
用PPO算法顺利通过29关!如果不行,那就换一个学习率
这个PPO是何来头?文摘菌也去了解了一下。
PPO全称是近端策略优化,听这
AI助阵马里奥通关!PPO算法带飞,连过29关

本文介绍了uvipen如何使用PPO算法帮助马里奥通过29关,接近完全通关。PPO是一种强大的强化学习算法,已在多个游戏中展现出优秀性能。uvipen将代码开源,分享了训练和测试模型的方法。尽管A3C算法去年尝试未完全成功,但uvipen的科普工作受到了认可。他是一位专注于NLP和CV的计算机科学家,其项目QuickDraw也颇受欢迎。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



