1. 什么是强化学习
在连接主义学习中,在学习的方式有三种:非监督学习(unsupervised learning)、监督学习
(supervised leaning)和强化学习。监督学习也称为有导师的学习,需要外界存在一个“教师”对给定
输入提供应有的输出结果,学习的目的是减少系统产生的实际输出和预期输出之间的误差,所产生
的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导
的情形下构建其内部表征。学习完全是开环的。
生物进化过程中为适应环境而进行的学习有两个特点:一是人从来不是静止的被动的等待而是主动
的对环境作试探;二是环境对试探动作产生的反馈是评价性的,生物根据环境的评价来调整以后的
行为,是一种从环境状态到行为映射的学习,具有以上特点的学习就是强化学习。
强化学习(reinforcement learning)又称为再励学习,是指从环境状态到行为映射的学习,以使系
统行为从环境中获得的累积奖励值最大的一种机器学习方法,智能控制机器人及分析预测等领域有
许多应用。
2. 发展史
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来,最早可以追溯到巴甫洛夫的条
件反射实验。1911年Thorndike提出了效果律(Law of Effect):一定情景下让动物感到舒服的行
为,就会与此情景增强联系(强化),当此情景再现时,动物的这种行为也更易再现;相反,让动
物感觉不舒服的行为,会减弱与情景的联系,此情景再现时,此行为将很难再现。动物的试错学
习,包含两个含义:选择(selectional)和联系(associative),对应计算上的搜索和记忆。
强化学习的研究发展史可分为两个阶段。第一阶段是50年代至60年代,为强化学习的形成阶段。
1954年,Minsky在他的博士论文中实现了计算上的试错学习,并首次提出“强化学习”术语。最有影
响的是他的论文“通往人工智能的阶梯”(Minsky,1961),这篇文章讨论了有关强化学习的几个问
题,其中包括他称为信誉分配的问题:怎样在许多的、与产生成功结果有关的各个决策中分配信
誉。后来,Farley和Clark的兴趣从试错学习转向泛化和模式识别,也就是从强化学习转向监督学
习,这引起了几种学习方法之间的关系混乱。由于这些混乱原因,使得真正的试错学习在二十世纪
六、七十年代研究得很少。第二阶段是强化学习的发展阶段。直到上世纪八十年代末、九十年代初
强化学习技术才在人工智能、机器学习和自动控制等领域中得到广泛研究和应用,并被认为是设计
智能系统的核心技术之一。
强化学习在国内处于发展阶段,并取得一定成绩。杨璐采用强化学习中的TD算法对经济领域的问
题进行预测;蒋国飞将Q学习应用在倒立摆控制系统,并通过对连续空间的离散化,证明了在满足
一定条件下的Q学习的收敛性;张健沛等对连续动作的强化学习方法进行了研究,并将其应用到机
器人避障行为中……。随着强化学习的数学基础研究取得突破性进展后对强化学习的研究和应用成
为目前机器学习