34、深度强化学习:时间线与环境介绍

深度强化学习:时间线与环境介绍

1. 深度强化学习时间线

深度强化学习的发展历程是一部充满创新与突破的历史,以下是其关键节点时间线:
|年份|事件|
| ---- | ---- |
|1947|蒙特卡罗采样|
|1958|感知机|
|1959|时间差分学习|
|1983|第一个演员 - 评论家算法 ASE - ALE|
|1986|反向传播算法|
|1989|卷积神经网络(CNNs)、Q - 学习|
|1991|TD - Gammon|
|1992|REINFORCE、经验回放|
|1994|SARSA|
|1999|英伟达发明 GPU|
|2007|CUDA 发布|
|2012|街机学习环境(ALE)|
|2013|深度 Q 网络(DQN)|
|2015 年 2 月|DQN 在雅达利游戏中达到人类水平控制、信赖域策略优化(TRPO)|
|2015 年 6 月|广义优势估计|
|2015 年 9 月|深度确定性策略梯度(DDPG)、双 DQN|
|2015 年 11 月|决斗 DQN、优先经验回放、TensorFlow|
|2016 年 2 月|异步优势演员 - 评论家(A3C)|
|2016 年 3 月|AlphaGo 以 4 - 1 击败李世石|
|2016 年 6 月|OpenAI Gym、生成对抗模仿学习(GAIL)|
|2016 年 10 月|PyTorch|
|2017 年 3 月|模型无关元学习(MAML)|
|2017 年 7 月|分布式强化学习、近端策略优

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值