强化学习是什么?
强化学习是面向智能体的学习,智能体通过与环境进行交互来达到预定目标。
强化学习通过试错和优化来进行学习,智能体通过试错后的奖励或者惩罚来学习。
强化学习和机器学习的关系:
机器学习分为三类:监督学习、非监督学习、强化学习。
监督学习:有即时标签的学习。
非监督学习:无标签学习。
强化学习:有延迟奖励的学习。
【例】:给出一批人脸图片,要求做分类
监督学习:给定人脸的标签(人名),通过数据学习得出人脸属于哪个数据。
非监督学习:不需要标签,通过学习,判断出哪些图像属于同一个人。
强化学习:没有标签,只有奖励信号,奖励包括:
即时奖励:如果分错了,告诉你错了。
延迟奖励:全部分类完毕,告诉你本次分类的得分。
强化学习的直观特性:
1)没有监督信号,只有奖励信号(具体变抽象)
2)奖励信号大都是延迟的,不是即时的。
3)强化学习是优化问题。