目录
背景介绍
GPU-based Asynchronous Advantage Actor-Critic是A3C的GPU实现。
A3C的每一个Worker都需要采样、训练,需要充足的CPU资源。
GPU有很强的并行计算优势;直觉上,将学习计算部分挪到GPU,收集数据环境交互部分放到CPU,会使系统更紧凑高效,同时也能匹配其他深度学习任务的硬件架构。
模型架构及学习过程
学习过程是这样的:
1,整体采用的是批处理策略,即缓存到达batch size后统一处理;
2,每个Agent(Worker)负责收集数据(s, a, r, s'),注册到队列Training Queue,由Trainer管理供以后训练使用;
3,但Agent不负责采样本身π(a|s),而是将需求注册到队列Prediction Queue,由Predictor管理;
3,Predictor是个While True Thread,当缓存到达其batch size后,调