SEED RL:Scalable, Efficient Deep-RL,每秒处理数百万张图片的分布式强化学习框架。
目录
基本架构
- Actor由大量CPUs组成,只进行环境交互,不再进行推理采样。
- Learner由GPU组成,高度的算力集中,完成推理采样、数据存储及学习训练。
- 基本结构和GA3C很相似。
学习过程
- 整体采用批处理机制,批量采样、批量学习。
- Inference thread是While True Thread,负责生成π(a|s)并保存trajectories (s, a, r, s')。
- Data prefetching也是While True Thread,当trajectories完成时,通过quene存入replay buffer。
- Training thead也是While True Thread