1.一个强化学习系统的两个关键元素:奖励(reward)、策略(policy);
奖励(reward):强化学习的学习目标,在做出行动后接收到来自环境的奖励。
策略(policy):决策者根据不同的观测决定采取不同的策略。强化学习的对象。
2.与监督学习、非监督学习的区别;
3.智能体(agent)、环境(environment)的概念及两者之间的交互;
4.强化学习的分类:基于价值、基于策略;
基于价值的强化学习定义了状态或动作的价值函数,来表示到达某种状态或执行某种动作之后获得的回报。基于价值的强化学习倾向于选择价值最大的状态和动作;而基于策略的强化学习不需要定义价值函数,可以为动作分配概率分布,按照概率分布来执行动作;
如果强化学习算法用到了深度学习,则这种强化学习算法可以称之为深度强化学习(DRL);
Markov性:是Markov决策过程模型对状态的额外约束,它要求状态含有可能对未来产生影响的所有过去信息。
:策略,是基于状态
做出行动
的概率。记为
;
5.奖励、回报与价值函数
状态价值函数
动作价值函数
6.Bellman期望方程用来进行策略评估;