《Playing Atari with Deep Reinforcement Learning 》 论文阅读笔记和分析(DQN 2013版)

本文探讨了深度学习(DL)难以直接应用于强化学习(RL)的原因,包括两者对训练数据的不同需求、样本间的相关性差异及数据概率分布的变化。这些区别揭示了从监督学习到非监督学习转变的技术挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DL难以应用于RL的原因

  1. 标签:DL需要大量标签好的训练集,而RL在一个具有延迟性、噪声、稀疏性的标量reward signal中学习。这种延迟存在于action 和其reward之中,使得难以建立出类似监督学习中输入与目标的直接关联
  2. 相关性:DL中的样本数据之间是不互相影响的,而RL 的state序列是高度相关性的(因此导致其样本也是高度相关性的)。
  3. 概率分布:DL中的数据分布概率是固定的,而RL中的数据分布概率随着学习的策略而改变。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值