
强化学习
文章平均质量分 78
记录强化学习学习过程的笔记
Spgroc
不念过往,不负当下,不畏将来!
https://cc01.plusai.io/
展开
-
Gym报错 The observation returned by the `reset()` method is not contained with the .......
发生这个错误是因为自定义环境时,环境的观测空间类型定义与reset()时返回的数据类型不一致,故发生报错。1 修改自己的观测数据,确保与定义的类型一致2 由错误位置可以看出是环境规则检查的check函数发生报错,那么我们在确保自己环境可正常运行的情况下可将 disable_env_checker = True即:这样就关闭了gym的环境检测,不会发生check的报错实验测试记录使用,仅供参考...原创 2022-07-12 19:39:34 · 2372 阅读 · 3 评论 -
多智能体强化学习—QMIX
多智能体强化学习—QMIX论文地址:https://arxiv.org/pdf/1803.11485.pdf1 介绍 首先介绍一下VDN(value decomposition networks)顾名思义,VDN是一种价值分解的网络,采用对每个智能体的值函数进行整合,得到一个联合动作值函数。为了简单阐述考虑两个智能体:(o-observations,a-actions,Q-action-value function) 当智能体观察他自己的目标时,但不一定是队友的目标,那么有: 当(oi原创 2022-04-09 22:26:59 · 15426 阅读 · 3 评论 -
多智能体强化学习—QPLEX
QPLEX的主要亮点**:分别对联合Q值 $Q_{tot}$ 和各个agent的Q值 $Q_{i}$ 使用Dueling structure: $Q=V+A$ 进行分解,将IGM一致性转化为易于实现的优势函数取值范围约束,从而方便了具有线性分解结构的值函数的学习,这种分解让Q值的获得更为具体,***Q值=当前状态的价值V+采取动作的价值A***,这样可以进一步判断Q值的获得是由于状态还是由于采取的动作的优势。原创 2022-04-10 16:27:08 · 3181 阅读 · 2 评论