Stable Baselines/用户向导/RL算法

最新推荐文章于 2025-11-15 17:54:27 发布

翻译最新推荐文章于 2025-11-15 17:54:27 发布 · 1.8k 阅读

文章标签：

17 篇文章

订阅专栏

本文档介绍了Stable Baselines库中的强化学习算法，包括其主要特性，如迭代策略、离散/连续行动支持，并提供了算法适用的行动空间类型。同时指出该项目不支持某些特定的非数组空间，除非与特定组件配合使用。

部署运行你感兴趣的模型镜像

Stable Baselines官方文档中文版 Github 优快云
尝试翻译官方文档，水平有限，如有错误万望指正

下面这个表格展示了stable baselines项目中采用的所有RL算法及其重要特征：迭代策略、离散/连续行动、多线程

Name	Refactored [1]	Recurrent	`Box`	`Discrete`	Multi Processing
A2C	✔️	✔️	✔️	✔️	✔️
ACER	✔️	✔️	❌ [4]	✔️	✔️
ACKTR	✔️	✔️	❌ [4]	✔️	✔️
DDPG	✔️	❌	✔️	❌	✔️ [3]
DQN	✔️	❌	❌	✔️	❌
HER	✔️	❌	✔️	✔️	❌
GAIL [2]	✔️	✔️	✔️	✔️	✔️ [3]
PPO1	✔️	❌	✔️	✔️	✔️ [3]
PPO2	✔️	✔️	✔️	✔️	✔️
SAC	✔️	❌	✔️	❌	❌
TD3	✔️	❌	✔️	❌	❌
TRPO	✔️	❌	✔️	✔	✔️ [3]