本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
目录
1.基础概念
强化学习的核心思想:智能体agent在环境environment中学习,根据环境的状态state,执行动作action,并根据环境的反馈奖励reward来指导更好的动作。
两部分:agent 智能体、environment环境
三要素:state状态/ observation观察值、action动作、reward奖励
一个生动的例子来说明:
2.相关应用
1.小鸟游戏:小鸟作为agent,当前场景为state,然后进行action,得到reward。
2.游戏走迷宫:当只有到达目的地时,才获得1分的reward,体现了奖励的延时性。action为向上下左右走