深度学习算法与强化学习算法区别

深度学习(Deep Learning, DL)与强化学习(Reinforcement Learning, RL)经常被并列提及,但二者不是同一维度的概念

表格

复制

维度深度学习(DL)强化学习(RL)
本质表示学习/函数逼近的方法族决策优化的学习范式
目标学到一个高维输入→输出的映射(分类、回归、生成)学到一个策略,使长期累积奖励最大
训练信号有标签(监督)、无标签(自监督)或环境奖励(可结合 RL)奖励信号(可能稀疏、延迟)
核心问题如何提取/表达特征如何探索与利用以获得最大长期收益
典型算法CNN、RNN、Transformer、VAE、GAN 等Q-Learning、Policy Gradient、A3C、PPO、SAC 等
数据通常需要大量已标注静态数据通过与环境交互在线产生数据
是否需要环境模型不需要可与模型无关(model-free)或利用模型(model-based)
二者交集把深度网络当作 RL 的函数逼近器深度强化学习(Deep RL)

一句话总结

  • 深度学习解决“如何表示/预测”的问题;

  • 强化学习解决“如何决策”的问题;

  • 当 RL 用深度网络表示策略/价值函数时,就得到 Deep Reinforcement Learning(深度强化学习)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值