[归纳]强化学习导论 - 第十四章:心理学

1. 本章内容概要

在之前的章节中,我们研究了仅仅基于计算的各种算法思想,这一章,我们则从另一个角度看待这些算法,也就是心理学的角度以及其对动物学习方式的研究。本章的目标是:首先,研究RL的思想和算法与心理学家发现的动物学习过程的关联;第二,介绍RL对动物学习研究的影响。

RL框架综合了任务、回报、和算法,在处理实验数据、指导新的实验、指出影响操作和测量的关键因素等方面非常有效。优化长期回报的思想是RL的核心,这也对研究动物学习和行为中的困扰有所指导。

RL和心理学理论之间的关联并不让人惊讶,因为RL的在发展过程中本来就受到了心理学习理论的很多启发。然而,正如我们在本书中所研究的,RL是从人工智能研究者/工程师角度对理想情形的探索,目的是为了利用算法解决计算问题,而不是解释动物如何学习的。但是我们能找到这两个领域中一些思想的密切联系,这些关联很有意义。

本章的大部分内容会研究RL与动物(老鼠,鸽子等)学习理论的关联。随着心理学的发展,它变得更重视认知方面,也就是如思考、推理等心理过程,而动物学习实验则逐渐在心理学中不那么重要了。但是这些实验揭示了动物界学习的法则,在AI中不应该忽视这些成果。此外,一些认知处理过程也和RL中的计算视角有自然的关联。

本章最后的部分还会探索RL中的术语和心理学中的术语之间的对应关系,其实RL中很多术语都是从动物学习理论借鉴过来的,但是含义可能有所不同。

2. 预测和控制

本书中介绍的算法包含两个大类:预测算法和控制算法。这两类方法在RL中是很自然的出现的。和心理学相对照,则对应心理学中一些研究很深入的类别:classical(Pavlovian) conditioning和 instrumental(operant) conditioning。这些关联是不意外的,因为心理学本来就对RL的发展有很大影响,但是仍然很让人激动,因为这把不同领域的思想连接了起来。

本书中的预测算法是用来估计agent环境的特征未来展开之期望的值(这话怪怪的…),我们一般着眼于估计累积折扣回报的期望。从这个角度,预测算法也就是策略评估算法,是策略提升所必需的工作。但是预测算法并不局限于预测未来的回报,也能预测环境的任何特征。预测算法和classical conditioning的关联主要在于它们都预测即将来临的刺激(回报/惩罚)。

而对于instrumental conditioning的实验则不太一样,在实验装置中设置动物喜欢(reward)和讨厌(penalty)的要素,动物则学习增加其产生回报行为的趋势,降低产生惩罚行为的趋势,而在classical conditioning中并不是这样操作的。在instrumental conditioning中控制是这个学习过程的核心,对应着RL中的策略提升过程。

classical conditioning针对预测,instrumental conditioning针对控制,这是将RL的计算观点和动物学习相关联的起点,但是在实际中情况会更复杂一些。classical conditioning比预测的内涵要多,它还包含动作,这实际上是一种模式的控制,有时叫做Pavlovian control。此外,classical和instrumental之间还有有意思的关联。无论如何,将classical/instrumental和预测/控制联系是一个方便的办法。

在心理学中,术语**增强(reinforcement)**既用来描述classical中的学习,也用来描述instrumental中的学习。实际上最初只用来描述某种行为模式的增强,也常用来描述行为模式的减弱。导致行为改变的刺激叫做增强子(reinforcer),无论这是否取决于动物以前的行为。本章最后,我们会更深入讨论这个术语,以及它和ML中术语的关联。

3. classical conditioning

当研究消化系统的活动时,著名的俄罗斯心理学家Ivan Pavlov发现,动物对特定刺激的本能反应,也可以被与这先天刺激完全无关的其它刺激激发。他的实验主要用狗完成,对其进行轻微手术使之唾液反射系统能被准确测量,在他描述的一个例子中,在一般情况下狗不产生唾液,但是如果给它看食物,则会在5s后产生6滴唾液。然后他多次重复在给狗看食物前给它先听节拍器的声音这个组合动作,最后发现只要给节拍器的声音也会触发狗流唾液。

针对这个重要实验,Ivan Pavlov总结到:

很明显的,在自然条件下,动物不仅仅会对带来立即好处/伤害的刺激产生反应,也会对那些预示着这些刺激的信号产生反应(物理或化学的,如声波、光波等),虽然并不是猎物的光和声信号带来吃饱的结果,而是动物自己的牙齿和爪子。
——Pavlov

将新的刺激和固有的本能反应通过这种方式连接起来,就叫做classical(Pavlovian) conditioning,可翻译成经典条件反射。Pavlov把这种先天的反应叫做无条件反应URs(如看到食物流口水),它们自然的触发性刺激叫做无条件刺激USs(如食物),把受到新的触发刺激从而产生的反应叫做条件反应CRs(如节拍器导致流口水)。一个原本中性的刺激,意味着它本来不会导致很强的反应(如节拍器的声音),当动物学习到它意味着US即将到来且会产生一个CR作为反应,中性的刺激就变成了条件刺激CS。这些术语目前还在用于描述经典条件实验,其中US也叫做增强子(reinforcer),因为它加强了CR的产生作为CS的反应

经典条件实验中,刺激的设置通常有两种类型,如下图所示:
在这里插入图片描述
在延迟条件反射(Delay Conditioning)中,CS覆盖ISI,也就是在CS开始点和US开始点之间的部分;在追踪条件反射(Trace Conditioning)中,US在CS结束之后过一段时间再开始,在CS结尾与US起始之间的区间叫做跟踪间隔(trace interval)。

Pavlov的狗听到节拍器流口水的实验只是经典条件反射的一个例子,已经得到了很深入广泛的研究了。URs通常是准备性的,例如Pavlov的狗的口水;或者通过是保护性的,就如吓唬要伤害眼睛导致眨眼,或者看到捕食者之后就呆住不动。经验上,CS-US的在一系列反复试验中的预测性关系导致动物学到用CS预测US,以至动物可以用CR响应CS,实际上是动物对预测的US做出的准备或者自我保护。一些CRs和UR是相似的,但是在某些方面有小的区别,例如提早发生等时间上的变化。例如,在一个研究很深入的实验类型中,一个CS(声音)能可靠地预测吹向兔子眼睛的风(US),触发眨眼这个UR。在多次实验后,这个声音就能在实际吹风之前触发CR(眨眼),且保证风实际到来时恰好眨眼到完全关闭眼睛(从而带来最低的伤害)。这个CR最初是用来降低吹向眼睛的风的伤害的,但是添加了CS后,可以使兔子提前闭眼,从而得到更好的保护。这种通过学习刺激之间的预测性关系从而能在预测到重要事情时动作的能力是很有益的,因而在动物界中非常普遍。

3.1 阻塞和高阶的条件反射

经典条件反射在实验中被观察到了很多有趣的特性。在经典条件反射模型的发展过程中,有两个被广泛观察到的性质发挥了重要作用:阻塞和高阶条件反射(blocking and higher-order conditioning)。某个CS已被证实可以引起动物的某个CR,在训练好这个CS后,引入另一个CS和这个CS一起使用继续训练,发现新的CS无法单独引起这个CR,这就叫做阻塞。例如,在涉及兔子眨眼条件反射阻塞实验的第一阶段,兔子首先被给出一个声音的CS和向眼睛吹气的US,从而导致利用声音预测接下来的吹气从而眨眼保护这个CR;这个实验的第二阶段中,则在给出声音的同时额外加入第二个刺激,例如光,然后看经过试验后,能否用这个新加入的刺激导致CR,结果发现是不行的,对光这个刺激的响应被先前的声音这个刺激阻塞了。这种阻塞的效果挑战了认为条件反射只依赖时间相近度的想法(US紧跟CS就能使CS引发CR),在下个小小节,我们介绍Rescorla–Wagner模型,该模型给出了阻塞条件反射的一个很有影响的解释。

把一个先前的已经训练好的引发响应的CS作为US,利用它使另外一个中性的刺激产生同样的UR,此种现象叫做高阶(级联?)条件反射。Pavlov描述的一个实验中,他的助手首先让狗对节拍器的声音产生条件反射,然后再把节拍器的声音作为US,试图让狗对一个黑色方块也产生条件反射(此过程即先给狗看黑色方块,然后马上给节拍器的声音,而不给食物)。仅仅经过十次训练后,黑色方块就能引发狗流口水了,这个过程中节拍器的声音起到了US的作用。这就是二阶条件反射,依次类推,还可以产生三阶乃至更高阶的反射。高阶反射的训练是很难的,因为高阶的增强子失去了原始增强子的那种根本价值。但在适当的条件下,高阶反射是也是能训练出来的。经典条件反射的TD模型使用了bootstrapping思想,这也是Rescorla–Wagner模型的核心,可以同时解释阻塞与高阶条件反射。

高阶工具性条件反射也会发生。在这个情形中,一个用来预测主要增强的刺激本身变成了增强子(就是US)。这个预测的刺激变成了二阶增强子,或者更一般的,变成了高阶或条件增强子,后面这个叫法则是当预测的增强刺激本身是二阶甚至高阶增强子时更恰当的术语。一个条件增强子传送了条件增强:条件回报或者条件惩罚。条件增强像主要增强一样,增加了动物产生导向条件回报的行为的趋势,降低了动物产生导向条件惩罚的行为的趋势。

条件增强是解释一些现象的关键,例如,我们努力工作挣钱,而钱实际上是条件增强子,其价值源于拥有钱后所能买到的东西。在actor-critic方法中,critic使用TD方法评估actor的策略,它的值估计向actor提供了条件增强,使得actor能提高自己的策略。这种对高阶工具性条件反射的模拟可以帮助我们解决回报赋值的问题,因为critic实际上给的是实时的增强,而原始回报信号是延迟的。

3.2 Rescorla–Wagner模型

Rescorla和Wagner主要针对阻塞反射创建了他们的模型。其核心思想是,动物只有在事情与期望偏离时才进行学习。接下来,我们首先使用他们的术语介绍Rescorla-Wagner模型,然后我们再切换到TD中的术语。

Rescorla和Wagner描述:模型调整复合CS中每个成员刺激的连结强度(associative strength),该连结强度代表这个成员对US的预测强度或可靠度。当一个复合CS包含多个成员刺激时,每个成员刺激的连结强度依赖于复合刺激整体的连结强度而变化,而不是仅仅依赖每个成员自身的连结强度,这个整体连结强度叫做聚合连结强度(aggregate associative strength)。

Rescorla和Wagner考虑,对于一个包含成员刺激A和X的复合CS AX,其中A刺激动物已经经历过了,但是刺激X的新的。令 V A , V X , V_{\mathrm{A}}, V_{\mathrm{X}}, VA,VX, V A X V_{\mathrm{AX}} VAX分别表示刺激A、X和复合AX各自的连结强度。假设在一次实验中,复合CS AX后紧跟着US,这个US用标记Y表示,那么,每个成员刺激的连结强度按照如下公式变化:

Δ V A = α A β Y ( R Y − V A X ) \Delta V_{\mathrm{A}}=\alpha_{\mathrm{A}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right) ΔVA=αAβY(RYVAX)
Δ V X = α X β Y ( R Y − V A X ) \Delta V_{\mathrm{X}}=\alpha_{\mathrm{X}} \beta_{\mathrm{Y}}\left(R_{\mathrm{Y}}-V_{\mathrm{AX}}\right) ΔVX=αXβY(RYVAX)

其中, α A β Y \alpha_{\mathrm{A}} \beta_{\mathrm{Y}} αAβY α X β Y \alpha_\mathrm{X} \beta_{\mathrm{Y}} αXβY是步长因子,依赖CS成员和US的性质, R Y R_{\mathrm{Y}} RY则是US Y能提供的连结强度的渐进水平(实际上,Rescorla和Wagner在这里使用的是 λ \lambda λ而不是 R R R,而本书中 λ \lambda λ用于表示RL的折扣因子)。这个模型的关键假设是,聚合连结强度 V A X V_{\mathrm{AX}} VAX等于 V A + V X V_{\mathrm{A}}+V_{\mathrm{X}} VA+VX,这些连结强度变化 Δ s \Delta s Δs,并成为下轮试验中的连结强度。

为了完整性,模型还需要响应生成机制,也就是把CRs映射为值Vs,由于这个映射依赖试验情景的细节,Rescorla和Wagner并没有指定具体的映射原则,只是假设更大的Vs能产生更强的或更多的CRs,负的值则意味着没有CRs。

Rescorla-Wagner模型以解释阻塞反射的方式解释了CRs收益。只要聚合连结强度 V A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值