深度强化学习:时间线、环境与应用
深度强化学习(Deep Reinforcement Learning)近年来取得了显著进展,在众多领域展现出强大的应用潜力。本文将带您了解深度强化学习的发展历程、常见的应用环境,以及一些具体环境的详细信息。
深度强化学习时间线
深度强化学习的发展历程是一个不断创新和突破的过程,以下是其重要发展节点的时间线:
| 年份 | 事件 |
| ---- | ---- |
| 1947 | 蒙特卡罗采样(Monte Carlo Sampling) |
| 1958 | 感知机(Perceptron) |
| 1959 | 时间差分学习(Temporal Difference Learning) |
| 1983 | ASE - ALE(第一个演员 - 评论家算法,Actor - Critic algorithm) |
| 1986 | 反向传播算法(Backpropagation algorithm) |
| 1989 | 卷积神经网络(CNNs);Q 学习(Q - Learning) |
| 1991 | TD - Gammon |
| 1992 | REINFORCE;经验回放(Experience Replay) |
| 1994 | SARSA |
| 1999 | 英伟达发明 GPU |
| 2007 | CUDA 发布 |
| 2012 | 街机学习环境(Arcade Learning Environment,ALE) |
| 2013 | 深度 Q 网络(DQN) |
| 2015 年 2 月 | DQN
超级会员免费看
订阅专栏 解锁全文
1427

被折叠的 条评论
为什么被折叠?



