无模型深度强化学习算法:直接训练类神经网络模型来表示策略。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和