
强化学习
文章平均质量分 76
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
SL_World
中国科学院大学计算机应用技术专业在读研究生
展开
-
强化学习待解决问题和主流Trick整理
文章目录一、待解决问题二、DRL主流Trick2.1 主流Trick应用场景2.1 序贯决策导致的非独立同分布问题2.2 Policy随Target震荡而震荡问题2.3 Target过估计从而影响策略问题2.4 数据采样效率问题三、典型DRL算法总结四、典型DRL算法致谢一、待解决问题序号待解决问题进一步理解产生原因本质1非独立同分布数据使神经网络难以收敛由于训练分布完全依赖于序贯决策样本,导致训练出的数据分布局部化 ,即不同于完整状态-动作空间分布序贯探索决策中有些动原创 2021-05-15 21:59:08 · 1594 阅读 · 6 评论 -
【论文阅读】DeepJS: Job Scheduling Based on DRL in Cloud Data Center
1 摘要作者提出一种在矢量装箱问题下的,基于深度强化学习的,资源调度算法(原文称作业调度),该算法可自动获得合适的计算方法,该方法将最小化完成时间(最大化吞吐量),本文从trace-driven的仿真演示了DeepJS的收敛和泛化性以及DeepJS学习的本质,同时实验表明DeepJS优于启发式的调度算法2 Introduction什么是好的调度策略?①减少碎片 + ②增加吞吐量资源管理依赖于对①工作负载和②集群状态的理解资源调度应用的启发式算法Fair scheduling(公平调原创 2021-04-27 21:59:48 · 1452 阅读 · 4 评论 -
深度强化学习框架Ray|RLLib|Tune学习笔记
文章目录0 Ray深度强化学习框架概述1 Ray使用场景—多进程2 Ray使用场景—进程间通信3 Tune使用场景—调参4 RLLib使用场景—RL算法5 Ray、Tune和RLLib关系6 Ray系统架构(实现多进程和跨节点通信)6.1 Ray系统架构—概述6.2 Ray系统架构—内存管理7 Tune系统架构(实验资源分配+调参)8 RLLib系统架构(Trainer、Policy和Agent)8.1 Policy实现功能8.2 Trainer实现功能参考文献0 Ray深度强化学习框架概述Ray—原创 2021-04-19 12:01:46 · 6796 阅读 · 3 评论 -
PIL Image与tensor在PyTorch图像预处理时的转换
前言:在使用深度学习框架PyTorch预处理图像数据时,你可能和我一样遇到过各种各样的问题,网上虽然总能找到类似的问题,但不同文章的代码环境不同,也不一定能直接解决自己的问题。这时,就需要就自身所出bug了解问题本身涉及的大致原理,依据报错的具体位置(要完整的看完bug信息,不要只看最后报错信息而不看中间调用过程)才能更快的精准解决自己的问题一、原理概述PIL(Python Imaging Library)是Python中最基础的图像处理库,而使用PyTorch将原始输入图像预处理为神经网络的输入,.原创 2021-02-26 20:34:11 · 16052 阅读 · 1 评论 -
强化学习之云端Jupyter上渲染Gym-Atari视频游戏
前言对于部署在Linux系统上的Jupyter,也许当你最初渲染Gym附带的Artri视频小游戏时,你或多或少也遇到或下面问题问题1:~/Downloads/yes/lib/python3.7/site-packages/pyglet/gl/__init__.py in <module>() 225 else: 226 from .carbon import CarbonConfig as Config--> 227 del base原创 2021-02-24 12:56:40 · 1425 阅读 · 0 评论 -
gym中render()函数在云server运行的解决方案
原文出处:https://blog.youkuaiyun.com/wobeatit/article/details/106313945近来在跑gym上的环境时,遇到了如下的问题:pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to "None"习惯性地Google搜索一波解决方案,结果发现关于此类问题的导火索,主要指向 gym中的 render() 函数在远端被调用。因为该函数要求是在local本地端运行,它在本地会开启一个窗口用于渲染环境的图转载 2021-02-23 17:47:58 · 1114 阅读 · 1 评论 -
《深度强化学习》面试题汇总
原文出处: [1] 腾讯云.《深度强化学习》面试题汇总[2] Reinforcement Learning遇到的一些强化学习面试问题[3] 知乎.再励学习面试真题深度强化学习报道来源:Blog(AemaH,苏克)编辑:DeepRL不知不觉中求职季已经进行了很长时间,算法岗位的招聘可以说是非常火爆,但目前强化学习的面试题目相对来说比较少,本文整理了大约50多道题目,仅供大家自测,也欢迎总结和贡献答案!什么是强化学习?强化学习和监督学习、无监督学习的区别是什么?强化学习适合解决什转载 2021-01-14 19:43:16 · 1114 阅读 · 0 评论 -
AIOps智能运维学习资料汇总
本文转载自GitHub: https://github.com/linjinjin123/awesome-AIOps White Paper 《企业级 AIOps 实施建议》白皮书 Course and Slides Tsinghua-Peidan - AIOps course转载 2020-12-07 15:17:11 · 1809 阅读 · 0 评论 -
Gym平台在强化学习实验中的应用
原文出处:https://zhuanlan.zhihu.com/p/114392519.知乎强化学习算法的实现需要合适的平台和工具。本案例将首先介绍目前常用的强化学习实现平台Gym的基本使用方法,再介绍实验工具TensorFlow的基本操作方法,为之后构建和评估强大的强化学习算法打下坚实基础。目录1.常见强化学习实验平台介绍2.实验平台Gym 2.1 Gym的安装 2.2 Gym中的内置环境] 2.3 Gym的基本使用方法]3 3.实验工具TensorFlow 3.1 TensorFlow的安装] 3.2转载 2020-09-23 15:13:04 · 2536 阅读 · 0 评论 -
强化学习之策略迭代和价值迭代(gym)
前言 —— 基于动态规划的强化学习一、策略迭代1.1 伪代码1.2 基于冰湖环境的代码实验环境及介绍:FrozenLake8x8-v0import gymimport timeimport numpy as npdef policy_evaluation(env, value_table, policy, gamma=0.9, threshold=1e-4): delta = 2 * threshold while delta > threshold:原创 2020-08-11 20:29:57 · 3931 阅读 · 2 评论 -
强化学习资源——Hands-On Reinforcement Learning、Deep Reinforcement Learning Hands-On等
原文出处:https://blog.youkuaiyun.com/hhy_csdn/article/details/89262009 Hands-On Reinforceme转载 2020-08-09 18:20:06 · 763 阅读 · 0 评论