34、深度强化学习：时间线与环境介绍-优快云博客

本文链接：https://blog.youkuaiyun.com/jwt8token/article/details/152340468

深度强化学习：时间线与环境介绍

1. 深度强化学习时间线

深度强化学习的发展历程是一部充满创新与突破的历史，以下是其关键节点时间线：
|年份|事件|
| ---- | ---- |
|1947|蒙特卡罗采样|
|1958|感知机|
|1959|时间差分学习|
|1983|第一个演员 - 评论家算法 ASE - ALE|
|1986|反向传播算法|
|1989|卷积神经网络（CNNs）、Q - 学习|
|1991|TD - Gammon|
|1992|REINFORCE、经验回放|
|1994|SARSA|
|1999|英伟达发明 GPU|
|2007|CUDA 发布|
|2012|街机学习环境（ALE）|
|2013|深度 Q 网络（DQN）|
|2015 年 2 月|DQN 在雅达利游戏中达到人类水平控制、信赖域策略优化（TRPO）|
|2015 年 6 月|广义优势估计|
|2015 年 9 月|深度确定性策略梯度（DDPG）、双 DQN|
|2015 年 11 月|决斗 DQN、优先经验回放、TensorFlow|
|2016 年 2 月|异步优势演员 - 评论家（A3C）|
|2016 年 3 月|AlphaGo 以 4 - 1 击败李世石|
|2016 年 6 月|OpenAI Gym、生成对抗模仿学习（GAIL）|
|2016 年 10 月|PyTorch|
|2017 年 3 月|模型无关元学习（MAML）|
|2017 年 7 月|分布式强化学习、近端策略优