- 博客(56)
- 资源 (7)
- 收藏
- 关注
原创 Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin;%PAT
mujoco200Exception: Please add mujoco library to your PATH:set PATH=C:\User\*\ .mujoco\mujoco200\bin;%PATH%
2022-06-02 16:08:25
3508
2
转载 Learning Invariant Representations for Reinforcement Learning without Reconstruction
链接:https://www.bilibili.com/video/av887550848/https://zhuanlan.zhihu.com/p/157534599
2021-09-06 11:19:01
705
原创 Encoding Human Domain Knowledge to Warm Start Reinforcement Learning
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2PROLONET决策树网络3.2.1PROLONET初始化3.2.2PROLONET推理3.2.3PROLONET动态增长4.关键结果及结论是什么4.1实验环境及对比算法4.1.1 Cart Pole4.1.2 Lunar Lander4.1.3 FindAndDefeatZerglings4.1
2021-07-26 22:21:32
776
1
原创 不能删除
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2初始化决策树网络4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何?参考链接相关资料论文链接:Encoding Human Domain Knowledge to Warm Start Reinforcement Learning
2021-07-25 22:48:45
378
转载 超图学习(Hypergraph Learning)
https://blog.youkuaiyun.com/qq_32797059/article/details/93031052
2021-07-16 11:11:28
323
转载 Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介
MPE环境是一个时间离散、空间连续的二维环境,UI的界面风格如图所示,它通过控制在二维空间中代表不同含义的粒子,实现对于各类MARL算法的验证。MPE被人们广泛所知是借助于那篇NiPS2017的著名多智能体强化学习算法MADDPG的实验环境,可以直接在arxiv中搜索到。MPE的使用方法与gym的使用方法基本一致,即每一个step通过输入agent的动作状态等信息来换取MPE的环境感知。MPE和gym一样,也是由openai组织进行开发的,其主要有以下几个任务构成。——————————————
2021-06-30 19:28:35
3038
3
原创 Python 射线法判断一个点坐标是否在一个坐标区域内
Python 射线法判断一个点坐标是否在一个坐标区域内class Point: lng = '' lat = '' def __init__(self, lng, lat): self.lng = lng self.lat = lat # 求外包矩形def get_polygon_bounds(points): length = len(points) top = down = left = right = poin
2021-05-11 21:21:46
1231
转载 拓扑排序(Topology_Sort)
基本思想对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序,是将G中所有顶点排成一个线性序列,使得图中任意一对顶点u和v,若边(u,v)∈E(G),则u在线性序列中出现在v之前。通常,这样的线性序列称为满足拓扑次序(Topological Order)的序列,简称拓扑序列。简单的说,由某个集合上的一个偏序得到该集合上的一个全序,这个操作称之为拓扑排序。算法原理在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Direct
2021-04-16 18:46:44
1431
原创 HSD算法
MADDPG1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1描述4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导
2021-04-02 16:06:29
405
原创 MADDPG:Multi-Agent Actor-Critic for Mixed Cooperative & MPE:Multi-Agent Particle Environment
MAPPO论文代码1.研究动机是什么2.主要解决了什么问题3.所提方法是什么MAPPO算法细节提升PPO性能的5个关键4.关键结果及结论是什么主要结论MPE实验SMAC实验Hanabi实验消融实验值归一化Agent-Specific Global StateTraining Data UsageAction MaskingDeath Masking5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代
2021-03-17 15:24:13
640
原创 MAPPO:The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games
MAPPO1.研究动机是什么2.主要解决了什么问题3.所提方法是什么4.关键结果及结论是什么5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入参考链接[Paper|
2021-03-16 20:37:38
8889
22
转载 强化学习 解方程 鸡兔同笼
打破线性方程求解速度极限,华人学者新算法获顶会最佳论文奖https://www.163.com/dy/article/G4LC98FF0511DSSR.html 求解方程的全新的思路,靠“猜”,这种方法就是:猜测每个未知数的值,把它们代入方程后,查看结果与实际值相差有多大。然后,修正未知数的值,再猜一次。这种方法,在计算机方向上被称为迭代法。彭泱的这种迭代算法,在方程的数量变得极多、且每个方程涉及的未知数较少时,显示出了巨大的优势。也就是说,如果在一个系数矩阵属于“稀疏矩阵”——矩阵本身特...
2021-03-16 10:35:23
565
原创 量化投资 强化学习 环境 框架 算法
https://mp.weixin.qq.com/s/limLRKIYXp6zpaZIdRittAhttps://www.zhihu.com/column/intro-to-quant
2021-03-15 10:18:04
248
原创 多智能体强化学习资料MARL
多智能体强化学习资料MARL框架https://github.com/oxwhirl/pymarlhttps://github.com/starry-sky6688/StarCrafthttps://github.com/openai/multiagent-particle-envs环境算法https://github.com/LantaoYu/MARL-Papershttps://www.bilibili.com/video/BV18z411q7Kchttps://www.youtube
2021-03-12 21:48:12
475
4
原创 进化——QPEX
南京大学俞扬研究动机是什么 主要解决了什么问题 所提方法是什么 关键结果及结论是什么 创新点在哪里 有值得阅读的相关文献吗 综合评价如何伪代码
2021-03-12 21:44:43
108
原创 多智能体强化学习算法综述
https://blog.youkuaiyun.com/keypig_zz/article/details/92816033
2021-03-01 19:50:52
577
转载 Bootstrapping的数学定义
Bootstrapping的数学定义https://zhuanlan.zhihu.com/p/54201828这篇文章讲的还行
2021-02-22 14:39:53
142
1
转载 强化学习的一些基本问题和总结
强化学习的一些基本问题和总结https://zhuanlan.zhihu.com/p/45894158内容:model-based和model-free的概念off-policy和on-policy的概念基于值函数和基于策略梯度的RL和SL的一些碎碎念(慎读)RL中的分类RL过程中predict和control的概念...
2021-02-20 14:21:19
274
转载 Win10下安装mujuco
https://blog.youkuaiyun.com/weixin_43897187/article/details/109526220
2021-02-02 16:42:12
156
原创 VMWare虚拟机安装Ubuntu
资源VMWare15.5:https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.6-16341506.exe Ubuntu20.04:https://mirrors.163.com/ubuntu-releases/操作VMWare15.5安装:https://www.bilibili.com/video/av10137705/?p=1&share_source=qq&share_m
2020-09-16 10:51:03
163
转载 PyTorch学习率调整策略
https://blog.youkuaiyun.com/shanglianlm/article/details/85143614
2020-08-05 22:27:33
119
转载 准确率、精确率、召回率、F1值、ROC/AUC整理笔记
https://blog.youkuaiyun.com/u013063099/article/details/80964865
2020-07-31 12:41:17
189
转载 深度强化学习-Actor-Critic算法原理和实现
https://blog.youkuaiyun.com/WASEFADG/article/details/80905094?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.ch
2020-07-28 09:56:55
520
转载 深度学习优化算法解析(Momentum, RMSProp, Adam)
https://blog.youkuaiyun.com/willduan1/article/details/78070086
2020-07-28 09:53:34
122
原创 pygame如何在没有屏幕的情况下训练
Pygame无GUI运行pygame的一些训练环境都是需要显示画面的。但是大型服务器一般都没有屏幕,此时运行程序会报错。我们需要使程序能在没有屏幕的情况下运行。解决方案:step1:将屏幕设置为'dummy'。import osos.environ["SDL_VIDEODRIVER"] = "dummy"step2:修改gym的play文件的play函数,注释掉“pygame.display.flip()”,该函数作用为更新整个待显示的Surface 对象到屏幕上。源代码:
2020-06-25 14:48:18
1224
1
原创 多文档合并成一个PDF文件
1.下载安装万兴PDF阅读器。支持Win和mac版本,下载链接见文章最后。2.打开万兴PDF阅读器,选择PDF合并,如下图3.点击添加,选择你需要合并的PDF文件,并点击下一个。4.显示合并中,等待一会就能看到你合成的文件了。5.万兴pdf专家还可以实现多种转换格式、编辑PDF文档、加水印让你文档更安全等功能。小编也是买来的,希望能挣点辛苦钱,扫下面二维码,备注您的邮箱地址,会给您发送至邮箱。您也可以去官网或者淘宝购买,不过需要更多费用,您可以比较后再做选择。...
2020-05-24 22:32:58
585
转载 python生成requirements.txt的两种方法
https://blog.youkuaiyun.com/hpulfc/article/details/80018854
2020-04-29 18:55:12
225
原创 Adobe Reader XI打开大约十几秒就自动退
1.打开我的电脑,按地址C:\Windows\System32\drivers\etc,找到“hosts”文件,双击选择“记事本”打开。2.将网站域名 127.0.0.1 acroipm.adobe.com 复制到文档底部并保存。PS:若想取消解析域名,在IP前加“#”即可。参考:https://jingyan.baidu.com/article/3aed632effa...
2020-04-21 15:09:49
1678
转载 大道至简——人工智能——从脑波到文本,只需要一个机器翻译模型
加州大学旧金山分校的Joseph Makin 等人在 Nature Neuroscience上发表了一篇论文,标题为Machine translation of cortical activity to text with an encoder–decoder framework。这篇论文的工作思路异常简单。他们将脑波到文本的转换视为机器翻译的过程,脑波为输入序列,文本为输出序列。通过让受...
2020-03-31 22:18:45
435
转载 win10 下安装 gym
https://blog.youkuaiyun.com/itnerd/article/details/88928381
2020-03-01 17:21:09
431
原创 强化学习——数据量
前几天,毕业论文答辩,老师问你的数据量有多大,解释半天老师没懂,最后笑笑讽刺的说你这也不是大数据啊。跟不懂的人没必要瞎比比,即使是我的答辩评审老师。人工智能领域,不知道从什么时候开始流行大数据了,只要数据量不大,通通认为不严谨,没有说服力。只有大数据训练出的模型才算好吗?反正这一观点,放在强化学习领域是不对的。用最少的数据,能训练出最好的结果才是好模型。如果一味追求数据量大,统计专业都没有...
2019-12-26 15:14:35
1546
转载 强化学习——探索与利用基本方法
探索和利用的困局(exploration exploitationdilemma):利用是做出当前信息下的最佳决定, 探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。几个基本的策略朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索; 乐观初...
2019-12-25 13:43:45
2160
转载 人工智能入门(简述、理论基础、历史和发展现状)
https://blog.youkuaiyun.com/优快云TianJi/article/details/89607425
2019-12-17 21:36:07
714
msmpisetup.exe和msmpisdk.msi
2019-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人