19、棋盘游戏的深度学习

棋盘游戏的深度学习

1. 引言

在过去的科幻小说中,人们曾幻想 21 世纪会出现个人喷气背包、水下城市、星际旅行、飞行汽车和真正具有独立思考能力的智能机器人。如今 21 世纪已至,飞行汽车尚未实现,但得益于深度学习,智能机器人或许有望成为现实。这与棋盘游戏的深度学习有什么关系呢?在后续内容中,我们将探讨如何构建能够学习游戏环境的人工智能(AI)。

现实世界有着无限的可能性,即使是让机械臂拾取物体这样简单的人类任务,也需要分析大量的感官数据,并控制机械臂运动的许多连续响应变量。而游戏为测试通用学习算法提供了一个绝佳的试验场,它提供了一个可能性众多但又可管理的环境。对于电脑游戏,人类可以仅通过屏幕上可见的像素和最少量的指令学会玩游戏。如果将相同的像素和目标输入到计算机代理中,在合适的算法下,这就是一个可解决的问题。实际上,对计算机来说这个问题更容易,因为人类需要识别视野中的物体是游戏像素而非屏幕周围的区域。这就是为什么许多研究人员将游戏视为开发真正 AI(能够独立运行的自学习机器)的理想起点,而且如果你喜欢游戏,这也会非常有趣。

2. 相关概念与术语

我们将使用多种深度学习技术来解决棋盘游戏,如跳棋和国际象棋,最终掌握构建击败人类顶级围棋选手的 AlphaGo 所使用的深度学习解决方案。涉及的概念包括:
- 极小极大算法
- 蒙特卡罗树搜索
- 强化学习
- 策略梯度
- Q 学习
- 演员 - 评论家算法
- 基于模型的方法

为了描述任务及其解决方案,我们使用一些术语,以迷宫游戏为例:
|术语|定义|
| ---- | ---- |
|智能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值