Lesson 17 Reinforcement Learning(RL)

原创

已于 2025-05-19 16:53:05 修改 · 1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2025-01-01 20:39:47 首次发布

听课（李宏毅老师的）笔记，方便梳理框架，以作复习之用。本节课主要讲了强化学习Reinforcement Learning(RL).
在这里插入图片描述
人类不知道正确答案是什么，收集资料很困难的时候，就可以用强化学习。通过与环境的互动，来知道什么是好的什么是不好的。

outline
在这里插入图片描述

What is RL(Three steps in ML)

Machine Leaning≈Looking for a Function

强化学习模型中，有两个重要的部分：actor和environment。actor通过观察environment得到observation作为输入，再输出action来影响environment，environment会向actor发出reward告诉actor这个action是好的还是坏的。所以实际上actor就是一个函数。
在这里插入图片描述

Example: Playing Video Game

以一个小游戏作为例子来讲解强化学习中actor和environment的相互作用机制。
最下面那个绿色的是母舰，可以开火杀掉外星人从而得到分数，橙色的保护壳，不能摧毁，母舰可以躲在保护壳后面。左上角的数字代表杀掉外星人得到的分数。终止条件是所有外星人都被杀死，或者母舰被外星人摧毁。
在这里插入图片描述

控制手柄的玩家作为actor，主机是environment，游戏的画面是observation，玩家可以发出向右的动作，可以得到0个reward哈哈哈哈（因为只有开火杀掉外星人才会有分）。
在这里插入图片描述
再比如玩家发出开火的动作杀掉了一个外星人，这时会得到reward=5。强化学习的目标就是最大化reward.

Example: Learning to play Go

第二个例子就是alphaGO, 此时alphaGO是actor，人类棋手是environment，棋盘是observation, 下一步棋就是action.
在这里插入图片描述

在下棋的过程中，大多数时候，reward都是0，只有赢了，reward才是1，输了reward就是-1. 强化学习的目标是最大化reward.
在这里插入图片描述

the Framework of Reinforcement Learning

在学习强化学习的框架之前，先来复习机器学习的框架。第一步：先定义一个含有未知参数的函数；第二步：定义loss function；第三步：训练模型，使loss变小。
在这里插入图片描述

Step 1: Function with Unknown

跟机器学习类似的，第一步就是定义一个含有未知数的function。那么在强化学习中，这个function实际上就是actor。
以击落外星人游戏为例，function的输入就是游戏画面的pixels，而输出就是各类行动的分数。
在actor内部，最后一层是softmax layer，使得最后输出是各类行动的分数，在最后选择哪一个行动时，并不是直接选择分数最高的行动，而是以对应的概率选择。比如left的分数是0.7，那么将会以70%的概率向左。这样做具有一定的随机性，在一些游戏里可能会有更好的结果。
在这里插入图片描述