作者:禅与计算机程序设计艺术
1.简介
Deep Reinforcement Learning(DRL)是机器学习中的一个方向,它研究如何让机器自己学习制定任务、解决问题。在这一领域,最常用的方法之一便是基于值函数进行强化学习——基于策略梯度的方法(Policy Gradient Method)。然而,基于值函数的方法往往存在着一些问题,特别是在复杂的问题中,它们可能需要很长的时间才能收敛到最优解,而且通常表现不如基于策略梯度的方法。所以,近几年来,深度强化学习的论文和方法层出不穷,其中一种方法便是基于策略梯度的方法。
2.相关工作
先来看一下与基于策略梯度的方法相关的两篇文章。第一篇《Deterministic policy gradients: A simple and efficient approach to reinforcement learning》提出了DDPG算法,其核心算法为深度确定性策略梯度。与基于策略梯度的方法不同的是,DDPG通过直接利用神经网络拟合策略网络和目标网络来训练策略网络,从而克服了基于值函数的方法所面临的诸多问题。第二篇《Addressing Function Approximation Error in Actor-Critic Methods》进一步探讨了基于策略梯度的方法中函数逼近误差的问题,并提出了Actor-Critic模型,将策略网络和值网络融合起来,得到更好的训练效果。<