
强化学习
azeyeazeye
这个作者很懒,什么都没留下…
展开
-
强化学习技巧——状态动作奖励算法训练等设计技巧
读到很好的文章,记录一下深度强化学习落地方法论转载 2021-12-30 11:16:54 · 1071 阅读 · 0 评论 -
Learning Invariant Representations for Reinforcement Learning without Reconstruction
链接:https://www.bilibili.com/video/av887550848/https://zhuanlan.zhihu.com/p/157534599转载 2021-09-06 11:19:01 · 710 阅读 · 0 评论 -
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2PROLONET决策树网络3.2.1PROLONET初始化3.2.2PROLONET推理3.2.3PROLONET动态增长4.关键结果及结论是什么4.1实验环境及对比算法4.1.1 Cart Pole4.1.2 Lunar Lander4.1.3 FindAndDefeatZerglings4.1原创 2021-07-26 22:21:32 · 789 阅读 · 1 评论 -
不能删除
Encoding Human Domain Knowledge to Warm Start Reinforcement Learning1.研究动机是什么2.主要解决了什么问题3.所提方法是什么3.1总体流程3.2初始化决策树网络4.关键结果及结论是什么4.1实验环境4.1实验结果5.创新点在哪里6.有值得阅读的相关文献吗7.综合评价又如何?参考链接相关资料论文链接:Encoding Human Domain Knowledge to Warm Start Reinforcement Learning原创 2021-07-25 22:48:45 · 381 阅读 · 0 评论 -
A2C和REINFORCE的区别
原创 2021-04-08 11:17:48 · 323 阅读 · 0 评论 -
量化投资 强化学习 环境 框架 算法
https://mp.weixin.qq.com/s/limLRKIYXp6zpaZIdRittAhttps://www.zhihu.com/column/intro-to-quant原创 2021-03-15 10:18:04 · 254 阅读 · 0 评论 -
PopArt
PopArthttps://www.leiphone.com/news/201809/kvmsqopha3xh984s.html原创 2021-03-12 21:46:38 · 689 阅读 · 0 评论 -
多智能体强化学习仿真环境
https://www.zhihu.com/question/332942236/answer/1246151999转载 2021-03-01 19:54:14 · 1316 阅读 · 0 评论 -
多智能体强化学习算法综述
https://blog.youkuaiyun.com/keypig_zz/article/details/92816033原创 2021-03-01 19:50:52 · 580 阅读 · 0 评论 -
Bootstrapping的数学定义
Bootstrapping的数学定义https://zhuanlan.zhihu.com/p/54201828这篇文章讲的还行转载 2021-02-22 14:39:53 · 147 阅读 · 1 评论 -
强化学习的一些基本问题和总结
强化学习的一些基本问题和总结https://zhuanlan.zhihu.com/p/45894158内容:model-based和model-free的概念off-policy和on-policy的概念基于值函数和基于策略梯度的RL和SL的一些碎碎念(慎读)RL中的分类RL过程中predict和control的概念...转载 2021-02-20 14:21:19 · 279 阅读 · 0 评论 -
Win10下安装mujuco
https://blog.youkuaiyun.com/weixin_43897187/article/details/109526220转载 2021-02-02 16:42:12 · 156 阅读 · 0 评论 -
pygame如何在没有屏幕的情况下训练
Pygame无GUI运行pygame的一些训练环境都是需要显示画面的。但是大型服务器一般都没有屏幕,此时运行程序会报错。我们需要使程序能在没有屏幕的情况下运行。解决方案:step1:将屏幕设置为'dummy'。import osos.environ["SDL_VIDEODRIVER"] = "dummy"step2:修改gym的play文件的play函数,注释掉“pygame.display.flip()”,该函数作用为更新整个待显示的Surface 对象到屏幕上。源代码:原创 2020-06-25 14:48:18 · 1237 阅读 · 1 评论 -
win10 下安装 gym
https://blog.youkuaiyun.com/itnerd/article/details/88928381转载 2020-03-01 17:21:09 · 435 阅读 · 0 评论 -
强化学习——数据量
前几天,毕业论文答辩,老师问你的数据量有多大,解释半天老师没懂,最后笑笑讽刺的说你这也不是大数据啊。跟不懂的人没必要瞎比比,即使是我的答辩评审老师。人工智能领域,不知道从什么时候开始流行大数据了,只要数据量不大,通通认为不严谨,没有说服力。只有大数据训练出的模型才算好吗?反正这一观点,放在强化学习领域是不对的。用最少的数据,能训练出最好的结果才是好模型。如果一味追求数据量大,统计专业都没有...原创 2019-12-26 15:14:35 · 1557 阅读 · 0 评论 -
强化学习——探索与利用基本方法
探索和利用的困局(exploration exploitationdilemma):利用是做出当前信息下的最佳决定, 探索则是尝试不同的行为继而收集更多的信息。最好的长期战略通常包含一些牺牲短期利益举措。通过搜集更多或者说足够多的信息使得个体能够达到宏观上的最佳策略。几个基本的策略朴素探索(Naive Exploration): 在贪婪搜索的基础上增加一个Ɛ以实现朴素探索; 乐观初...转载 2019-12-25 13:43:45 · 2172 阅读 · 0 评论 -
对强化学习的几点理解
1.强化学习的本质是在大空间中寻找最优解,是介于穷举和贪婪之间的一种探索机制,这种探索机制是学习得来的。 2.强化学习的设计是用来解决离散问题的。 3.“介于穷举和贪婪之间”:不用穷举可以减少搜索量,提升速度;不用贪婪可以尽量避免局部最优解。因此可以说是在计算时间与全局最优之间的权衡。 4.最难是建模,弄清楚什么是状态空间,什么是动作空间,什么是转移概率,什么...原创 2019-07-17 22:30:03 · 956 阅读 · 0 评论