强化学习经典model-free方法总结 1. 基于值函数(value-based)的方法 1.1 sarsa 1.2 Q-learning 1.3 DQN 1.4 Double DQN 1.5 Dueling DQN 1.6 QR-DQN 1.7 Rainbow 2. 基于价值和策略(Actor-Critic)的方法 2.1 A2C和A3C 2.2 TRPO 2.3 PPO 2.4 SAC 2.5 DPG 2.6 DDPG 2.7 TD3 本文对强化学习的model-free经典方法做一个总结归纳,以便在使用方法或阅读文献时进行对比查找。本文的框架如图所示: 1. 基于值函数(value-based)的方法 1.1 sarsa sarsa是on-policy、离散状态、离散动作的方法。这是很原始的方法,通常用一个Q表来存储state-action value.(有的翻译成状态动作价值,有的翻译成动作价值)。 核心公式为: 因为用于更新Q表的动作 a t