文章目录
一、什么是强化学习?
1、强化学习的定义
强化学习是机器学习的一种。强化学习实质上是一种机器学习范式,适用于多阶段序贯决策以获得较好的长期回报的场景。反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
生活中常见的强化学习过程:
2、强化学习和监督学习的区别
一般我们在图片分类的实验中,先有一大堆标定的数据,比如车、飞机等图片,然后训练一个分类器,网络在训练时已经把真实的Label给到网络了,如果预测错误,比如把车预测成飞机,就直接说预测是错误的,把错误的写成一个loss函数。所以在监督学习中,输入的数据都是没有关联的,如果有关联,网络就会不好学习。监督学习告诉了learner,正确的标签是什么,使用正确的标签来修正自己的预测。
图来自于:https://cdn.modb.pro/db/245201
但是在强化学习中,这两点都不满足,强化学习的训练数据就是玩游戏的一个过程,数据就是游戏中的这样一个过程序列,比如游戏走在第三步的时候,将这个learner放入到网络,希望网络在当前的状态下输出一个决策,但是我们并没有标签告诉我们这个决策动作是正确的还是错误的,得等到游戏结束才行。面临一个奖励延迟,训练网络就是比较困难的。
图来自于莫烦教程
监督学习和强化学习的不同点有:
- 强化学习的序列数据不像监督学习中的样本都是i.i.d数据,即满足独立同分布。