深度学习(Deep Learning, DL)与强化学习(Reinforcement Learning, RL)经常被并列提及,但二者不是同一维度的概念:
表格
复制
维度 | 深度学习(DL) | 强化学习(RL) |
---|---|---|
本质 | 表示学习/函数逼近的方法族 | 决策优化的学习范式 |
目标 | 学到一个高维输入→输出的映射(分类、回归、生成) | 学到一个策略,使长期累积奖励最大 |
训练信号 | 有标签(监督)、无标签(自监督)或环境奖励(可结合 RL) | 奖励信号(可能稀疏、延迟) |
核心问题 | 如何提取/表达特征 | 如何探索与利用以获得最大长期收益 |
典型算法 | CNN、RNN、Transformer、VAE、GAN 等 | Q-Learning、Policy Gradient、A3C、PPO、SAC 等 |
数据 | 通常需要大量已标注或静态数据 | 通过与环境交互在线产生数据 |
是否需要环境模型 | 不需要 | 可与模型无关(model-free)或利用模型(model-based) |
二者交集 | 把深度网络当作 RL 的函数逼近器 → 深度强化学习(Deep RL) |
一句话总结
-
深度学习解决“如何表示/预测”的问题;
-
强化学习解决“如何决策”的问题;
-
当 RL 用深度网络表示策略/价值函数时,就得到 Deep Reinforcement Learning(深度强化学习)。