一、技术构成
深度强化学习由两个技术构成:
1)RL:Reinforce Learning 强化学习
2)DL:Deep Learning 深度学习
二、深度学习和强化学习区别
1)强化学习完成两个任务:规划 和 决策
2)深度学习完成:特征映射,提取语义信息。

规划:达到最终状态,中间采取的一系列动作,不仅对当前状态做反应,还要考虑到未来。
三、两种决策方法

1)DQN
基于value做决策
易训练

2)PG:策略梯度,基于状态做决策
优点:非常直接
缺点:比较难训练

3)两种方法结合,比较好用。
AC模型:A是PG网络,C是价值网络
四、强化学习的工作方式
试错学习: