
强化学习
whzooz
开始学习做笔记
展开
-
随机策略做连续控制
复习回顾策略梯度:策略梯度是状态价值函数关于θ的梯度,θ是策略网络的参数,策略梯度可以写成期望的形式,期望是关于A求的,A是随机变量,其概率密度是策略网络π,期望里面是关于A的函数,记作g(A),相当于一个随机梯度,由于求期望很困难,实践中总是用随机梯度代替期望,也就是蒙特卡洛近似。g(a)称为随即策略梯度,其中a是策略网络随机抽样得到的,实践中都是用g(a)去更新策略网络,做梯度上升更新参数θ。随机策略做连续控制本次我们将构建一个策略网络做连续控制,然后用随即策略梯度来更新策略网络原创 2022-04-25 20:42:33 · 1197 阅读 · 0 评论 -
DPG(确定策略梯度)
基本网络结构:还是基于Actor-critic网络的一种结构,包含策略网络和价值网络。这里的策略网络为,但输出不再是概率分布,而是一个确定的实数或向量,输出的动作a是确定的,没有随机性,在机械臂的例子中,输出的是二维向量,因为机械臂有两个动作维度。这里的价值网络有两个输入,分别是状态s和动作a,输出的是一个实数,即对动作的评价。我们要做的就是训练这两个网络,让策略函数选取动作越来越好,让价值函数打分越来越准确。价值网络的训练:1.观测到一个四元组。2.根据观测到的t时刻的原创 2022-04-25 16:59:40 · 3029 阅读 · 0 评论 -
REINFORCE和A2C的异同
两者的神经网络结构一模一样,都是分为两个网络,即策略神经网络和价值神经网络。但是两者的区别在于价值神经网络的作用不同,A2C中的可以评价当前状态的好坏,而REINFORCE中的只是作为一个Baseline而已,唯一作用就是降低随机梯度造成的方差。A2C算法的改进:用multi-step TD target来改进A2C算法,因为之前计算TD target只用到一个奖励,所以是one step TD target。用multi-step TD target就是指计算TD target时里面包含多..原创 2022-04-25 15:45:41 · 2055 阅读 · 0 评论 -
Reinforce with Baseline
概念回顾:公式推导:之前介绍Baseline的博客得出随机策略梯度,想要用其来更新策略网络,但是里面还有未知项,还得做近似。我们不知道和,所以需要去近似。而是回报的期望,在这里再做一次近似,那观测到的来近似,这也是一种蒙特卡洛近似,称为Reinforce。具体做法:例如玩一整局游戏,观测到一条轨迹,我们把从t时刻开始的所有奖励做加权求和,得到回报。就是的无偏估计。对于,我们用神经网络来近似,叫做价值神经网络,即。最终得到的近似结果为:我们总共做了三次近似(两次蒙特卡洛近似原创 2022-04-25 15:14:07 · 1559 阅读 · 0 评论 -
A2C方法(策略梯度中的Baseline)
就是把Baseline用在Actor-Critic网络中。这里的Actor-Critic网络也有两个网络,分别是策略网络和价值网络,策略网络记作,其中θ为神经网络的参数,该神经网络近似的是策略函数,来控制agent的动作。价值网络记作,其中w是价值神经网络的参数,该神经网络近似的是状态价值函数,用来评价状态的好坏。这里的Actor-Critic网络与之前的不太一样,之前的critic用的是动作价值函数Q,这里用的是状态价值V,动作价值函数Q依赖于状态s和动作a,而状态价值V只依赖于状态s,所以V比Q原创 2022-04-25 15:13:39 · 1321 阅读 · 0 评论 -
强化学习基本概念
一、概述强化学习是智能体与环境不断交互,从而不断强化自己的决策能力的过程。首先环境(Env)会给智能体(Agent)一个观测值(Observation)(有时也称状态State),智能体接收到环境给的观测值之后会做出一个动作(Action),环境接收到智能体给的动作之后会做出一系列的反应,例如对这个动作给予一个奖励(Reward),以及给出一个新的观测值。智能体根据环境给予的奖励值去更新自己的策略(Policy)。可以说,强化学习的目的就是为了得到最优的策略。二、基本概念1.策略Poli原创 2022-03-15 15:17:56 · 1392 阅读 · 0 评论