强化学习（RL）

原创已于 2024-08-04 19:37:09 修改 · 251 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

于 2024-08-03 23:57:54 首次发布

什么是强化学习

在连接主义学习中，在学习的方式有三种：非监督学习(unsupervised learning)、监督学习

(supervised leaning)和强化学习。监督学习也称为有导师的学习，需要外界存在一个“教师”对给定

输入提供应有的输出结果，学习的目的是减少系统产生的实际输出和预期输出之间的误差，所产生

的误差反馈给系统来指导学习。非监督学习也称为无导师的学习。它是指系统不存在外部教师指导

的情形下构建其内部表征。学习完全是开环的。

生物进化过程中为适应环境而进行的学习有两个特点：一是人从来不是静止的被动的等待而是主动

的对环境作试探；二是环境对试探动作产生的反馈是评价性的，生物根据环境的评价来调整以后的

行为，是一种从环境状态到行为映射的学习，具有以上特点的学习就是强化学习。

强化学习（reinforcement learning）又称为再励学习，是指从环境状态到行为映射的学习，以使系

统行为从环境中获得的累积奖励值最大的一种机器学习方法，智能控制机器人及分析预测等领域有

许多应用。

强化学习VS其他机器学习

1.没有监督者，只有量化奖励信号

2.反馈延迟，只有进行到最后才知道当下的动作是好是坏

3.强化学习属于顺序决策，根据时间一步一步决策行动，训练数据不符合独立分布条件

4.每一步行动影响下一步状态以及奖励

强化学习的原理及概念

Agent（智能体、机器人、代理）：强化学习训练的主体就是Agent，有时候翻译为“代理”，这里统称为“智能体”。Pacman中就是这个张开大嘴的黄色扇形移动体。

Environment（环境）：整个游戏的大背景就是环境；Pacman中Agent、Ghost、豆子以及里面各个隔离板块组成了整个环境。

State（状态）：当前 Environment和Agent所处的状态，因为Ghost一直在移动，豆子数目也在不停变化，Agent的位置也在不停变化，所以整个State处于变化中；这里特别强调一点，State包含了Agent和Environment的状态。

Action（行动）：基于当前的State，Agent可以采取哪些action，比如向左or右，向上or下；Action是和State强挂钩的，比如上图中很多位置都是有隔板的，很明显Agent在此State下是不能往左或者往右的，只能上下；

Reward（奖励）：Agent在当前State下，采取了某个特定的action后，会获得环境的一定反馈就是Reward。这里面用Reward进行统称，虽然Reward翻译成中文是“奖励”的意思，但其实强化学习中Reward只是代表环境给予的“反馈”，可能是奖励也可能是惩罚。比如Pacman游戏中，Agent碰见了Ghost那环境给予的就是惩罚。