听课(李宏毅老师的)笔记,方便梳理框架,以作复习之用。本节课主要讲了强化学习Reinforcement Learning(RL).

人类不知道正确答案是什么,收集资料很困难的时候,就可以用强化学习。通过与环境的互动,来知道什么是好的什么是不好的。

outline

What is RL(Three steps in ML)
Machine Leaning≈Looking for a Function
强化学习模型中,有两个重要的部分:actor和environment。actor通过观察environment得到observation作为输入,再输出action来影响environment,environment会向actor发出reward告诉actor这个action是好的还是坏的。所以实际上actor就是一个函数。

Example: Playing Video Game
以一个小游戏作为例子来讲解强化学习中actor和environment的相互作用机制。
最下面那个绿色的是母舰,可以开火杀掉外星人从而得到分数,橙色的保护壳,不能摧毁,母舰可以躲在保护壳后面。左上角的数字代表杀掉外星人得到的分数。终止条件是所有外星人都被杀死,或者母舰被外星人摧毁。

控制手柄的玩家作为actor,主机是environment,游戏的画面是observation,玩家可以发出向右的动作,可以得到0个reward哈哈哈哈(因为只有开火杀掉外星人才会有分)。

再比如玩家发出开火的动作杀掉了一个外星人,这时会得到reward=5。强化学习的目标就是最大化reward.

Example: Learning to play Go
第二个例子就是alphaGO, 此时alphaGO是actor,人类棋手是environment,棋盘是observation, 下一步棋就是action.

在下棋的过程中,大多数时候,reward都是0,只有赢了,reward才是1,输了reward就是-1. 强化学习的目标是最大化reward.

the Framework of Reinforcement Learning
在学习强化学习的框架之前,先来复习机器学习的框架。第一步:先定义一个含有未知参数的函数;第二步:定义loss function;第三步:训练模型,使loss变小。

Step 1: Function with Unknown
跟机器学习类似的,第一步就是定义一个含有未知数的function。那么在强化学习中,这个function实际上就是actor。
以击落外星人游戏为例,function的输入就是游戏画面的pixels,而输出就是各类行动的分数。
在actor内部,最后一层是softmax layer,使得最后输出是各类行动的分数,在最后选择哪一个行动时,并不是直接选择分数最高的行动,而是以对应的概率选择。比如left的分数是0.7,那么将会以70%的概率向左。这样做具有一定的随机性,在一些游戏里可能会有更好的结果。

Step 2: Define “Loss”
通过action1,从observation1转到observation2,得到的奖励为r1;通过action2,从observation2转到observation3,得到的奖励为r2。以此类推。

在

最低0.47元/天 解锁文章
393

被折叠的 条评论
为什么被折叠?



