DeepMind和OpenAI为什么要用深度增强学习玩游戏

最新推荐文章于 2025-04-24 14:22:15 发布

AlonAzrael

最新推荐文章于 2025-04-24 14:22:15 发布

阅读量5.8k

点赞数 7

分类专栏：数据科学机器学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010215609/article/details/62247479

版权

你知道DeepMind吗？
很可能知道，毕竟大家都已经熟知，这家公司这几年发生的两件大事：
1. 被谷歌收购
2. 花了很多很多的资源，教计算机下围棋，并打败目前所有已知的围棋顶级选手

那么你也很可能知道DeepMind在13年发了一篇paper，叫做”Playing Atari with Deep Reinforcement Learning”。这篇paper讲的是deepmind是怎么教计算机玩atari游戏的。

但你有可能不知道的是，为什么deepmind要教计算机玩游戏？

好吧，你可能内心觉得这家公司大概是学术味道很浓的一个科研团队发几篇学术味道很浓的paper，然后拿很多投资，再招很多学术味道很浓的科学家，发更多学术味道很浓的paper。

无独有偶，有另外一个由顶尖机器学习科学家组成的拿了10亿美元投资的叫做OpenAI的团队，也花了很多精力在教计算机玩游戏，他们甚至搞了一个叫做gym和另一个叫做universe的开源平台，可以让每个人都用这个平台教计算机玩游戏，gym用来玩atari，flappy bird，贪食蛇这种小游戏，universe则用来玩GTA5，赛车这种大型3D游戏。

于是，他们到底想要干什么，培养计算机成电竞高手，然后做直播？还是通过在每款游戏中打败人类，收获无与伦比的成就感？

为了更好地回答”这几家公司到底想干嘛”这个问题，我们自己尝试着使用gym来教计算机玩flappy bird和贪食蛇这两款游戏，所使用的机器学习方法正是来自deepmind的深度增强学习算法，实现框架则是tensorflow。

以下是我们的计算机在玩这两个游戏初识时，和

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。