一些经典概念辨析 为什么PPO不能做经验回放 DQN的几个contribution:1. 神经网络化 2. 提出了离线回放机制(结合重要性采样方法),提高了采样效率 DDQN的contribution:解决了 V ( s ) ~ \tilde{V(s)}