作者:禅与计算机程序设计艺术
1.简介
深度强化学习(Deep reinforcement learning)是机器学习研究领域中的一个新兴方向,它在对复杂环境进行控制、决策时表现出了巨大的潜力。其核心思想是用深层次的神经网络来建立预测模型,通过预测的结果来指导行为,从而促进智能体的长期记忆、优化策略和避免陷入局部最优。深度强化学习并不是新的算法,而是基于经典强化学习理论和最新研究成果,结合深度学习的一些最新方法,提出了一种基于深度神经网络的新型强化学习算法——Actor-Critic(演员-评论家)方法。本文将详细介绍深度强化学习的相关概念、基本算法、以及实践案例。
2.基本概念术语说明
(1)马尔可夫决策过程(Markov Decision Process, MDP)
在深度强化学习中,智能体与环境进行互动的过程中会产生各种状态和奖励,状态是智能体所处的环境信息,奖励则是智能体在当前状态下执行某个操作获得的回报。整个过程可以用马尔可夫决策过程(MDP)来描述。MDP由如下五个元素组成: