课程链接: https://aistudio.baidu.com/aistudio/education/group/info/1335
强化学习
智能体Agent从环境Environment中学习,根据状态State,执行动作Action,并根据环境反馈受益reward,指导更好的动作。强化学习是一种延时性奖励
监督学习——>认知:是什么
强化学习——>策略:怎么做


On-policy vs Off-policy
On-policy:兼顾探索
Off-policy:更大胆

算法库及框架库

基于表格型方法求解RL