azeyeazeye-优快云博客

原创 Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin；%PAT

mujoco200Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin;%PATH%

2022-06-02 16:08:25 3733 2

转载强化学习技巧——状态动作奖励算法训练等设计技巧

读到很好的文章，记录一下深度强化学习落地方法论

2021-12-30 11:16:54 1169

转载 Learning Invariant Representations for Reinforcement Learning without Reconstruction

链接：https://www.bilibili.com/video/av887550848/https://zhuanlan.zhihu.com/p/157534599

2021-09-06 11:19:01 766

原创 Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2PROLONET决策树网络3.2.1PROLONET初始化3.2.2PROLONET推理3.2.3PROLONET动态增长4.关键结果及结论是什么4.1实验环境及对比算法4.1.1 Cart Pole4.1.2 Lunar Lander4.1.3 FindAndDefeatZerglings4.1

2021-07-26 22:21:32 879 1

原创不能删除

Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2初始化决策树网络4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何？参考链接相关资料论文链接：Encoding Human Domain Knowledge to Warm Start Reinforcement Learning

2021-07-25 22:48:45 412

转载超图学习（Hypergraph Learning）

https://blog.youkuaiyun.com/qq_32797059/article/details/93031052

2021-07-16 11:11:28 391

转载 Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介

MPE环境是一个时间离散、空间连续的二维环境，UI的界面风格如图所示，它通过控制在二维空间中代表不同含义的粒子，实现对于各类MARL算法的验证。MPE被人们广泛所知是借助于那篇NiPS2017的著名多智能体强化学习算法MADDPG的实验环境，可以直接在arxiv中搜索到。MPE的使用方法与gym的使用方法基本一致，即每一个step通过输入agent的动作状态等信息来换取MPE的环境感知。MPE和gym一样，也是由openai组织进行开发的，其主要有以下几个任务构成。——————————————

2021-06-30 19:28:35 3319 3

原创 Python 射线法判断一个点坐标是否在一个坐标区域内

Python 射线法判断一个点坐标是否在一个坐标区域内class Point: lng = '' lat = '' def __init__(self, lng, lat): self.lng = lng self.lat = lat # 求外包矩形def get_polygon_bounds(points): length = len(points) top = down = left = right = poin

2021-05-11 21:21:46 1302

转载拓扑排序(Topology_Sort)

基本思想对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序，是将G中所有顶点排成一个线性序列，使得图中任意一对顶点u和v，若边(u,v)∈E(G)，则u在线性序列中出现在v之前。通常，这样的线性序列称为满足拓扑次序(Topological Order)的序列，简称拓扑序列。简单的说，由某个集合上的一个偏序得到该集合上的一个全序，这个操作称之为拓扑排序。算法原理在图论中，拓扑排序（Topological Sorting）是一个有向无环图（DAG, Direct

2021-04-16 18:46:44 1473

原创 A2C和REINFORCE的区别

2021-04-08 11:17:48 365

原创 HSD算法

MADDPG1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1描述4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导

2021-04-02 16:06:29 497

原创 MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment

MAPPO论文代码1.研究动机是什么2.主要解决了什么问题3.所提方法是什么MAPPO算法细节提升PPO性能的5个关键4.关键结果及结论是什么主要结论MPE实验SMAC实验Hanabi实验消融实验值归一化Agent-Specific Global StateTraining Data UsageAction MaskingDeath Masking5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代

2021-03-17 15:24:13 729

原创 MAPPO:The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games

MAPPO1.研究动机是什么2.主要解决了什么问题3.所提方法是什么4.关键结果及结论是什么5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入参考链接[Paper|

2021-03-16 20:37:38 9671 22

转载强化学习解方程鸡兔同笼

打破线性方程求解速度极限，华人学者新算法获顶会最佳论文奖https://www.163.com/dy/article/G4LC98FF0511DSSR.html 求解方程的全新的思路，靠“猜”，这种方法就是：猜测每个未知数的值，把它们代入方程后，查看结果与实际值相差有多大。然后，修正未知数的值，再猜一次。这种方法，在计算机方向上被称为迭代法。彭泱的这种迭代算法，在方程的数量变得极多、且每个方程涉及的未知数较少时，显示出了巨大的优势。也就是说，如果在一个系数矩阵属于“稀疏矩阵”——矩阵本身特...

2021-03-16 10:35:23 682

原创量化投资强化学习环境框架算法

https://mp.weixin.qq.com/s/limLRKIYXp6zpaZIdRittAhttps://www.zhihu.com/column/intro-to-quant

2021-03-15 10:18:04 303

原创多智能体强化学习资料MARL

多智能体强化学习资料MARL框架https://github.com/oxwhirl/pymarlhttps://github.com/starry-sky6688/StarCrafthttps://github.com/openai/multiagent-particle-envs环境算法https://github.com/LantaoYu/MARL-Papershttps://www.bilibili.com/video/BV18z411q7Kchttps://www.youtube

2021-03-12 21:48:12 551 4

原创 PopArt

PopArthttps://www.leiphone.com/news/201809/kvmsqopha3xh984s.html

2021-03-12 21:46:38 753

原创进化——QPEX

南京大学俞扬研究动机是什么主要解决了什么问题所提方法是什么关键结果及结论是什么创新点在哪里有值得阅读的相关文献吗综合评价如何伪代码

2021-03-12 21:44:43 128

原创 FPEM

FPEM

2021-03-12 21:38:41 602

转载多智能体强化学习仿真环境

https://www.zhihu.com/question/332942236/answer/1246151999

2021-03-01 19:54:14 1412

原创多智能体强化学习算法综述

https://blog.youkuaiyun.com/keypig_zz/article/details/92816033

2021-03-01 19:50:52 616

转载 Bootstrapping的数学定义

Bootstrapping的数学定义https://zhuanlan.zhihu.com/p/54201828这篇文章讲的还行

2021-02-22 14:39:53 191 1

转载强化学习的一些基本问题和总结

强化学习的一些基本问题和总结https://zhuanlan.zhihu.com/p/45894158内容：model-based和model-free的概念off-policy和on-policy的概念基于值函数和基于策略梯度的RL和SL的一些碎碎念（慎读）RL中的分类RL过程中predict和control的概念...

2021-02-20 14:21:19 301

转载 Win10下安装mujuco

https://blog.youkuaiyun.com/weixin_43897187/article/details/109526220

2021-02-02 16:42:12 178

原创 VMWare虚拟机安装Ubuntu

资源VMWare15.5：https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.6-16341506.exe Ubuntu20.04：https://mirrors.163.com/ubuntu-releases/操作VMWare15.5安装：https://www.bilibili.com/video/av10137705/?p=1&share_source=qq&share_m

2020-09-16 10:51:03 199

转载 PyTorch学习率调整策略

https://blog.youkuaiyun.com/shanglianlm/article/details/85143614

2020-08-05 22:27:33 136

转载 Pytorch模型保存与加载，并在加载的模型基础上继续训练

https://www.jianshu.com/p/1cd6333128a1

2020-08-03 15:28:31 627

转载准确率、精确率、召回率、F1值、ROC/AUC整理笔记

https://blog.youkuaiyun.com/u013063099/article/details/80964865

2020-07-31 12:41:17 213

转载深度强化学习-Actor-Critic算法原理和实现

https://blog.youkuaiyun.com/WASEFADG/article/details/80905094?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.ch

2020-07-28 09:56:55 617

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

gym-0.12.0所有环境

SMAC_Maps.zip

数据分析与EVIEWS应用 易丹辉

主从递阶决策论Stackelberg问题

msmpisetup.exe和msmpisdk.msi

iangopklojclohjcbiobemaknapklaeg.zip

IObit Uninstaller vs完全删除

空空如也

数据分析与EVIEWS应用易丹辉