DeepMind和OpenAI为什么要用深度增强学习玩游戏

你知道DeepMind吗?
很可能知道,毕竟大家都已经熟知,这家公司这几年发生的两件大事:
1. 被谷歌收购
2. 花了很多很多的资源,教计算机下围棋,并打败目前所有已知的围棋顶级选手

那么你也很可能知道DeepMind在13年发了一篇paper,叫做”Playing Atari with Deep Reinforcement Learning”。这篇paper讲的是deepmind是怎么教计算机玩atari游戏的。

但你有可能不知道的是,为什么deepmind要教计算机玩游戏?

好吧,你可能内心觉得这家公司大概是学术味道很浓的一个科研团队发几篇学术味道很浓的paper,然后拿很多投资,再招很多学术味道很浓的科学家,发更多学术味道很浓的paper。

无独有偶,有另外一个由顶尖机器学习科学家组成的拿了10亿美元投资的叫做OpenAI的团队,也花了很多精力在教计算机玩游戏,他们甚至搞了一个叫做gym和另一个叫做universe的开源平台,可以让每个人都用这个平台教计算机玩游戏,gym用来玩atari,flappy bird,贪食蛇这种小游戏,universe则用来玩GTA5,赛车这种大型3D游戏。

于是,他们到底想要干什么,培养计算机成电竞高手,然后做直播?还是通过在每款游戏中打败人类,收获无与伦比的成就感?

为了更好地回答”这几家公司到底想干嘛”这个问题,我们自己尝试着使用gym来教计算机玩flappy bird和贪食蛇这两款游戏,所使用的机器学习方法正是来自deepmind的深度增强学习算法,实现框架则是tensorflow。

以下是我们的计算机在玩这两个游戏初识时,和

### 强化学习在经典游戏中的应用 #### AlphaGo:围棋领域的突破 AlphaGo 是由 DeepMind 开发的一款能够玩围棋的人工智能程序。该系统利用了深度神经网络蒙特卡洛树搜索相结合的方法,在训练过程中不断优化其策略,最终击败了世界顶级棋手李世石[^1]。 ```python import numpy as np class GoBoard: def __init__(self, size=19): self.size = size board = np.zeros((size, size)) ``` #### Atari 游戏系列的成功实践 Atari Games 作为早期电子游戏的经典代表之一,成为了测试强化学习算法的理想平台。DQN(Deep Q-Networks)首次展示了卷积神经网络可以成功地解决多个不同的 Atari 游戏任务,证明了端到端的学习方法的有效性[^2]。 ```python def preprocess_atari_frame(frame): """预处理 Atari 帧""" gray_scale_image = cv2.cvtColor(np.array(frame), cv2.COLOR_RGB2GRAY) resized_screen = cv2.resize(gray_scale_image, (84, 110), interpolation=cv2.INTER_AREA) cropped_screen = resized_screen[18:102, :] normalized_stack = cropped_screen / 255.0 return normalized_stack.reshape(84, 84, 1) env = gym.make('PongNoFrameskip-v4') state = env.reset() processed_state = preprocess_atari_frame(state) ``` #### OpenAI Five: Dota 2 的胜利之路 OpenAI Five 是一个专为多人在线战术竞技类 MOBA 游戏《DOTA 2》设计的 AI 系统。它通过自我对抗的方式进行了大量模拟比赛,并学会了复杂的团队协作技巧,甚至能够在特定模式下战胜职业玩家队伍[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值