
Reinforcement Learning
文章平均质量分 59
执妄
不会数学也不想写代码
展开
-
安装spinning up教程里与mujoco对应的gym,报错mjpro150
我以为安装到这一步到头了,结果折腾了几个小时!!!先安装官方教程尝试安装然后报错我以为是我路径设置的有问题,然而并没有我写的就是mujoco200看了很多博客,发现默认依赖mujoco_py150版本的,然而我装的并不是解决办法就是排除依赖这时候又出现问题了运行PPO测试报错希望我的路径为mujoco210,我以为我又要重装,然而并不需要,直接进.bashrc把路径名改为然后再运行PPO测试成功了!!!一天就装了个环境0.0。......原创 2022-07-22 21:44:46 · 376 阅读 · 0 评论 -
mujoco和mujoco_py安装以及解决libXcursor.so.1:NO such dictionary
在目标文件夹(环境文件夹即可)下创建文件夹.mojoco解压缩之后把里面的mujoco200文件夹放到.mojoco文件夹下然后把mikey.txt文件放到.mujoco文件夹下一份,再放一份到下。原创 2022-07-22 16:52:38 · 1000 阅读 · 0 评论 -
spinning up安装完使用教程测试是否成功,出现Library“GLU“ not found和‘from pyglet.gl import *错误解决办法
spinning up安装测试,解决Library"GLU" not found等问题原创 2022-07-22 14:21:36 · 613 阅读 · 0 评论 -
提高随机策略梯度方法的稳定性
1 PPO方法:近端策略优化论文:Proximal Policy Optimization Algorithms核心改进:2 TRPO论文:Trust Region Policy OptimizationPPO也是一个TRPO方法,只不过它使用对策略比率简单裁剪来限制策略的更新。3 SAC论文:Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning核心思想:熵正则化,在每个时间戳上添加了与该时间戳上原创 2022-04-16 22:09:53 · 164 阅读 · 0 评论 -
连续动作空间
1 A2C方法A2C方法的状态价值输出端针对连续动作保持不变。唯一受影响的是策略的表示形式。2 确定性策略梯度论文:Deterministic Policy Gradient AlgorithmsDDPG 在深度 Q 网络基础上加了一个策略网络来直接输出动作值,所以 DDPG 需要一边学习 Q 网络,一边学习策略网络。Q 网络的参数用 w 来表示。策略网络的参数用 θ 来表示。我们称这样的结构为演员-评论员的结构.3 分布的策略梯度(D4PG)论文:Distributed Distribut原创 2022-04-16 21:38:08 · 846 阅读 · 5 评论 -
actor-critic方法
1.减小方差方差很高时,随机变量的取值可能会远远偏离均值。策略梯度方法的思想:增加良好动作的执行概率,并减少不良动作的执行概率。为了提高Reinforce的稳定性,从梯度量表中减去了平均奖励。为什么这么做?假设有一个非常简单的场景,在该场景中我们对梯度进行一次优化,有三个动作,它们的总折扣奖励值不同,分别为Q1、Q2和Q3Q_1、Q_2和Q_3Q1、Q2和Q3.令Q1Q_1Q1和Q2Q_2Q2都等于某个小的正数,而Q3Q_3Q3是某个大的负数。由这三个步骤得到的综合梯度将试图使策略原理第原创 2022-04-16 20:23:24 · 886 阅读 · 0 评论 -
策略梯度:Policy Gradient
为什么需要策略?环境中存在大量的动作,甚至具有连续的动作空间。如果用Q(s,a)Q(s,a)Q(s,a)来寻找最佳的动作,需要解决一个最优化的问题,即寻找使Q(s,a)Q(s,a)Q(s,a)最大的a。这个问题在非离散集合中会变得非常难,在这种情况下直接使用策略更为可行。另外,它是环境具有随机性的体现,和Categorical DQN方法具有相同的思想。1 Reinforce方法1.1存在的问题需要完整的片段:在开始训练之前,需要等待完整的episode完成。需要与环境进行大量的交互才能执行单个原创 2022-04-16 19:14:20 · 479 阅读 · 0 评论 -
Q-Learning与Deep Q-network
1 价值迭代价值迭代方法假设事先知道环境中的所有状态,可以对其进行迭代,并可以存储与他们关联的近似价值。对于状态价值步骤如下:对于动作价值步骤如下:存在的问题:获得优质状态转移动态的估计所需的样本数量,状态空间需要足够小将问题限制在离散的动作空间中我们很少能知道动作的转移概率和奖励矩阵2 表格 Q-learning思想:不需要遍历状态空间的每一个状态,我们有一个环境,该环境可以用作真实状态样本的来源。如果状态空间的一些样本没有展示出来,我们不需要关心这些样本的价值,可以用从环境中获得原创 2022-04-16 14:04:42 · 2059 阅读 · 2 评论 -
交叉熵方法(Cross-Entropy Method)
重要性采样定理重要性采样可以改变原来的旧分布,用新的分布去采集样本,然后求出目标期望,上述证明显示两者理论上是等价的,但是等价他有个前提条件:就是2个分布不能相差太大。换句话说,如果2个分布相差过大,那么两者就不会相等,这就是IS的缺陷。IS确实可以让2个分布产生一个期望,但是期望相等并不代表方差相等。如上图红框所示,如果2者相差过大,就会导致双方的方差Varience过大。而当采样数据不足够时,方差相差太大会导致两者的样本均值相差很大!重要性采样的用处在于对于原分布下不太好求解的情况下,把问题转原创 2022-04-16 00:37:47 · 1906 阅读 · 0 评论