强化学习:原理、算法与实践
1. 强化学习的崛起
AlphaGo的胜利有力地证明了深度强化学习技术有能力学习解决复杂的策略游戏。其突破的核心在于认识到卷积网络能够学习估计在一局进行到一半时,黑方或白方是否领先,这使得游戏树能够在合理的深度进行截断。此外,AlphaGo还能估计哪些走法最有成效,从而对游戏树空间进行二次剪枝。这一胜利让深度强化学习备受瞩目,众多研究人员正努力将AlphaGo式的系统转化为实际应用。
2. 马尔可夫决策过程(MDPs)
在深入探讨强化学习算法之前,有必要明确强化学习方法试图解决的问题类型。马尔可夫决策过程(MDPs)的数学框架对于制定强化学习方法非常有用。
2.1 环境与智能体
MDPs的核心是环境和智能体的组合。环境编码了智能体试图行动的“世界”,例如围棋棋盘与对面的棋手李在石构成一个有效的环境,小型机器人直升机周围的环境也是一个潜在的环境。智能体是在环境中行动的学习实体,如AlphaGo本身就是一个智能体,机器人直升机(更准确地说是其控制算法)也是一个智能体。每个智能体在环境中都有一组可以采取的行动,对于AlphaGo来说,这些行动是有效的围棋走法;对于机器人直升机来说,包括控制主旋翼和副旋翼。
2.2 行动的影响
智能体采取的行动会对环境产生影响。在AlphaGo的例子中,这种影响是确定性的,即AlphaGo决定放置一颗围棋子,结果就是这颗子会被放置。而在直升机的例子中,影响可能是概率性的,因为直升机位置的变化可能取决于无法有效建模的风况。
2.3 奖励的概念
与有明确标签可供学习的监督学习,或旨在学习数据底层结
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



