奖励学习:从游戏到大脑的智能探索
1. 指数增长与游戏挑战
在中世纪的一个故事中,国际象棋发明者向统治者请求在棋盘的第一个方格放 1 粒小麦,第二个方格放 2 粒,第三个方格放 4 粒,以此类推,直到 64 个方格都放满。统治者起初认为这是个小请求便答应了,然而实际上,要满足这个请求,他需要给出的小麦数量是 2 的 64 次方(约 10 的 19 次方),这就是“指数增长”。
在国际象棋和围棋等游戏中,棋盘位置的数量增长比故事中的小麦粒数增长更快。国际象棋每一步平均有 35 种可能的走法,围棋的分支因子则达到 250,这使得指数增长更为迅速。
2. 游戏与机器学习的开端
游戏具有规则明确、玩家对棋盘有完全了解且决策虽不如现实世界复杂但仍具挑战性的优势。1959 年,IBM 的机器学习先驱 Arthur Samuel 编写了一个能玩西洋跳棋的程序,该程序在宣布当天使 IBM 的股票大幅上涨。这个程序基于成本函数评估不同游戏位置的优势,运行在使用真空管的 IBM 701 上,其新颖之处在于它能通过自我对弈学习。
3. 学习玩西洋双陆棋的挑战与突破
Gerald Tesauro 曾致力于教神经网络玩西洋双陆棋。最初采用专家监督结合反向传播训练网络评估游戏位置和可能走法,但该方法的缺陷是程序无法超越非世界冠军水平的专家。自我对弈虽可能带来改进,但当时面临“时间信用分配问题”,即当一方获胜时,难以确定众多走法中哪些是获胜的关键。
3.1 解决时间信用分配问题的算法
1988 年,Richard Sutton 发明了能解决时间信用分配问题的学习算法。与仅将输入转换为输出的深度学习网
超级会员免费看
订阅专栏 解锁全文
1217

被折叠的 条评论
为什么被折叠?



