强化学习中的学习类型与工程实践
1. 学习类型
强化学习中,智能体的目标是学习最优策略,常见的学习类型有以下几种:
- 在线学习 :绝大多数情况下,智能体进行在线学习,即与真实或模拟环境交互的同时进行学习。不过,这种方法存在样本效率问题,即学习最优策略所需的与环境交互次数较多。过去几十年,研究人员致力于通过改进探索和学习保证来提高样本效率,但探索开销、随机近似导致的采样延迟以及稳定性问题始终存在。
- 离线或批量学习 :过去认为学习必须在线进行,但现在发现可以从一批存储的数据(如回放缓冲区中的数据)中学习,即离线或批量学习。具体步骤如下:
1. 在线使用某个策略(可能是随机策略)生成数据并保存到缓冲区。
2. 离线时,在缓冲区的数据上训练新策略。
3. 部署新策略以供使用。
离线学习的主要优点是提高了样本效率,可以多次使用同一批数据训练模型,且对环境无影响。但它类似于监督学习,不过不能直接使用普通的回归或分类算法,因为数据是由马尔可夫决策过程(MDP)生成的。此外,智能体无法探索,难以“填补空白”和提出反事实问题,训练数据和部署时的数据分布也不同。在实践中,基于值的方法和策略梯度方法都会遇到问题,研究人员正在努力解决这些问题,如改进基本RL算法的稳定性保证、提高深度学习的理论保证、使用模仿学习等技术。
以下是离线学习与在线学习的对比表格:
| 学习类型 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 在线学习 | 实时交互学习 | 样本效率低,存在探索开销等问题 |
| 离线学习 | 样本效
超级会员免费看
订阅专栏 解锁全文
1209

被折叠的 条评论
为什么被折叠?



