以下内容总结自B站:深度强化学习(Deep Reinforcement Learning)_哔哩哔哩_bilibili
一、概述:
Value-based learning(价值学习):使用神经网络Deep Q network(DQN)来近似学习;使用时间差分(TD:temporal different)算法来训练DQN,即学习神经网络的参数。
二、概念回顾:
1、基于策略
的动作价值函数(Action-value function):
,表示
时刻状态
下做动作之后能获得的回报的期望。
是回报 (Return):表示t时刻开始未来执行一组动作后能够获得的奖励之和。
是即时奖励,与状态
和动作
相关;
是折扣因子,取[0,1]之间。未来的奖励不确定,所以需要在未来奖励上打个折扣。
- 动作价值函数
的现实意义:如果用策略
,我们能知道在状态
下做动作
是否明智,即
会对动作空间中的每一个动作
打分。如果有了
,Agent就能根据
对动作的评价做决策,选择得分最高的动作。
- 用不同的策略
函数,会得到不同的
。
- 下面尝试把
中的
去掉:对
求关于
的最