
强化学习
文章平均质量分 75
入门强化学习库rllib,轻松进行机器学习
星行夜空
这个作者很懒,什么都没留下…
展开
-
RLlib,调参的基本概念(Tune)
如何使用ray的tune进行调参原创 2023-12-28 09:57:01 · 1139 阅读 · 0 评论 -
RLlib一:RLlib入门
强化学习库,RLlib入门原创 2023-11-13 19:52:03 · 2617 阅读 · 0 评论 -
RLlib二:强化学习(RLlib)的关键概念
算法类的**training_step()**方法定义了位于任何算法核心的可重复执行逻辑。将其视为研究论文中算法伪代码的python实现。您可以使用training_step()来表达您希望如何协调从环境中收集样本、将这些数据移动到算法的其他部分,以及跨不同分布式组件更新和管理策略权重。简而言之,如果开发人员想要对现有算法进行自定义更改、从头开始编写自己的算法或从论文中实现一些算法,他们将需要覆盖/修改“training_step”方法。原创 2023-11-13 21:01:02 · 838 阅读 · 0 评论 -
RLlib三:环境
RLlib适用于几种不同类型的环境,包括Farama-Foundation Gymnasium、用户定义、多智能体环境以及批处理环境。并非所有环境都适用于所有算法。查看算法概述以获取更多信息。原创 2023-11-14 10:07:17 · 818 阅读 · 1 评论 -
RLlib四:Algorithms 强化学习典型算法总结
现有的基本强化学习方法总结,RLlib包含的RL算法总结,包括PPO,DQN等,包括多智能体RL算法简介原创 2023-11-14 10:35:24 · 1194 阅读 · 0 评论 -
RLlib五:如何丝滑使用RLlib
您可以提供在策略评估期间调用的回调。这些回调可以访问当前事件的状态。某些回调,如on_postprocess_trajectory、on_sample_end和on_train_result也是可以对中间数据或结果应用自定义后处理的地方。用户定义的状态可以为迭代中的episode.user_data dict,以及通过保存值到来报告的自定义标量指标 episode.custom_metrics dict。这些自定义指标custom_metrics将被聚合并作为训练结果的一部分报告。原创 2023-11-14 19:51:46 · 1001 阅读 · 0 评论 -
RLlib六:实战用户环境
ray-rllib实战原创 2023-11-20 17:03:59 · 309 阅读 · 0 评论 -
RLlib七:github上的代码示例
Rllib上的代码示例原创 2023-12-07 14:47:24 · 261 阅读 · 0 评论 -
【RLLIB】学习,GPU加速安装
强化学习,最新的ray,rllib,torch,GPU加速原创 2023-08-24 10:41:39 · 708 阅读 · 3 评论 -
get_cli_args函数
get_cli_args函数是什么,store_true是什么原创 2023-11-20 20:23:33 · 226 阅读 · 0 评论 -
RLLIB:algo = Algorithm.from_checkpoint(ckpt)遇到error 3
rllib的algo = Algorithm.from_checkpoint(ckpt)遇到error 3,从c盘拷贝文件到c盘发现路径不存在,两个路径一个比一个奇怪。升级ray的版本,我之前是2.6,升级到2.8就好了。原创 2023-12-09 10:46:32 · 137 阅读 · 0 评论 -
Ray RLlib User Guides:模型,处理器和动作分布
Ray的RLlib的用户手册,模型部分原创 2023-12-13 16:09:00 · 479 阅读 · 0 评论 -
深度强化学习中的动作屏蔽(Action Masking)
在复杂环境中使用动作屏蔽,实现更好的训练效果原创 2023-11-22 10:59:48 · 3430 阅读 · 0 评论 -
【STABLE_BASELINE3】强化学习算法实战:模型的保存,读取,再训练
STABLE-BASELINE3,模型读取,再训练:有时候需要在已经训练好的模型基础上进行再次训练。原创 2023-05-16 10:34:20 · 4075 阅读 · 2 评论 -
【STABLE BASELINE3】自定义环境代码,PPO,SAC,离散动作/连续状态
stable baseline3 PPO代码原创 2023-07-21 17:48:07 · 2888 阅读 · 2 评论