深度强化学习:时间线与环境介绍
1. 深度强化学习时间线
深度强化学习的发展历程是一部充满创新与突破的历史,以下是其关键节点时间线:
|年份|事件|
| ---- | ---- |
|1947|蒙特卡罗采样|
|1958|感知机|
|1959|时间差分学习|
|1983|第一个演员 - 评论家算法 ASE - ALE|
|1986|反向传播算法|
|1989|卷积神经网络(CNNs)、Q - 学习|
|1991|TD - Gammon|
|1992|REINFORCE、经验回放|
|1994|SARSA|
|1999|英伟达发明 GPU|
|2007|CUDA 发布|
|2012|街机学习环境(ALE)|
|2013|深度 Q 网络(DQN)|
|2015 年 2 月|DQN 在雅达利游戏中达到人类水平控制、信赖域策略优化(TRPO)|
|2015 年 6 月|广义优势估计|
|2015 年 9 月|深度确定性策略梯度(DDPG)、双 DQN|
|2015 年 11 月|决斗 DQN、优先经验回放、TensorFlow|
|2016 年 2 月|异步优势演员 - 评论家(A3C)|
|2016 年 3 月|AlphaGo 以 4 - 1 击败李世石|
|2016 年 6 月|OpenAI Gym、生成对抗模仿学习(GAIL)|
|2016 年 10 月|PyTorch|
|2017 年 3 月|模型无关元学习(MAML)|
|2017 年 7 月|分布式强化学习、近端策略优
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



