强化学习:从奖励中学习智能行为
1. 引言
在人工智能的学习领域中,监督学习是让智能体被动地观察“老师”提供的输入/输出示例对来进行学习。而今天我们要探讨的强化学习(Reinforcement Learning,RL)则不同,智能体可以在没有老师的情况下,通过自身的经验,依据最终的成功或失败来主动学习。
2. 从奖励中学习
以学习下国际象棋为例,如果将其视为监督学习问题,我们需要提供大量标注好的棋盘位置和正确走法的示例。虽然我们有包含数百万场特级大师棋局的数据库,但与所有可能的棋盘位置空间(约(10^{40}))相比,这些示例(约(10^{8}))数量相对较少。在新的棋局中,智能体很快就会遇到与数据库中显著不同的局面,训练好的智能体函数很可能会表现糟糕,因为它不清楚自己的走法要达到什么目标(将死对方),甚至不知道走法对棋子位置有什么影响。
强化学习则是让智能体与环境交互,并定期获得反映其表现好坏的奖励。例如在国际象棋中,获胜奖励为(1),失败为(0),平局为(\frac{1}{2})。强化学习的目标与马尔可夫决策过程(MDP)一样,都是最大化预期奖励总和。但不同的是,智能体并非被给予一个MDP问题去解决,而是处于MDP之中,它可能不知道转移模型或奖励函数,需要通过行动来获取更多信息。
从人工智能系统设计者的角度来看,为智能体提供奖励信号通常比提供标注好的行为示例更容易。一方面,奖励函数往往非常简洁且易于指定,例如用几行代码就能告诉国际象棋智能体是否获胜或失败,或者告诉赛车智能体是否赢得比赛或发生碰撞。另一方面,我们不需要成为能够在任何情况下提供正确行动的专家。
不过,在强化学习中,一点专业知识也能发挥很大作用。像国际
强化学习核心方法与应用
超级会员免费看
订阅专栏 解锁全文
1288

被折叠的 条评论
为什么被折叠?



